Employing text classification to facilitate economic and food safety law enforcing

Detalhes bibliográficos
Autor(a) principal: Magalhães, Gustavo Manuel Pinto de
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: http://hdl.handle.net/10400.22/15514
Resumo: A categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.
id RCAP_7e8d1f2643fcca013c0aba92ae15e525
oai_identifier_str oai:recipp.ipp.pt:10400.22/15514
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Employing text classification to facilitate economic and food safety law enforcingDenúnciasReclamaçãoClassificação de textoAprendizagem computacionalText classificationText classifiersComplaints classificationFeature selectionMachine learningA categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.Faria, Brígida MónicaReis, Luís PauloREPOSITÓRIO P.PORTOMagalhães, Gustavo Manuel Pinto de2022-09-30T00:30:52Z2019-112019-11-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/15514urn:tid:202445305enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-07T10:25:39Zoai:recipp.ipp.pt:10400.22/15514Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T00:53:44.323436Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Employing text classification to facilitate economic and food safety law enforcing
title Employing text classification to facilitate economic and food safety law enforcing
spellingShingle Employing text classification to facilitate economic and food safety law enforcing
Magalhães, Gustavo Manuel Pinto de
Denúncias
Reclamação
Classificação de texto
Aprendizagem computacional
Text classification
Text classifiers
Complaints classification
Feature selection
Machine learning
title_short Employing text classification to facilitate economic and food safety law enforcing
title_full Employing text classification to facilitate economic and food safety law enforcing
title_fullStr Employing text classification to facilitate economic and food safety law enforcing
title_full_unstemmed Employing text classification to facilitate economic and food safety law enforcing
title_sort Employing text classification to facilitate economic and food safety law enforcing
author Magalhães, Gustavo Manuel Pinto de
author_facet Magalhães, Gustavo Manuel Pinto de
author_role author
dc.contributor.none.fl_str_mv Faria, Brígida Mónica
Reis, Luís Paulo
REPOSITÓRIO P.PORTO
dc.contributor.author.fl_str_mv Magalhães, Gustavo Manuel Pinto de
dc.subject.por.fl_str_mv Denúncias
Reclamação
Classificação de texto
Aprendizagem computacional
Text classification
Text classifiers
Complaints classification
Feature selection
Machine learning
topic Denúncias
Reclamação
Classificação de texto
Aprendizagem computacional
Text classification
Text classifiers
Complaints classification
Feature selection
Machine learning
description A categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.
publishDate 2019
dc.date.none.fl_str_mv 2019-11
2019-11-01T00:00:00Z
2022-09-30T00:30:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/15514
urn:tid:202445305
url http://hdl.handle.net/10400.22/15514
identifier_str_mv urn:tid:202445305
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833600745560080384