Employing text classification to facilitate economic and food safety law enforcing

Magalhães, Gustavo Manuel Pinto de

Employing text classification to facilitate economic and food safety law enforcing

Detalhes bibliográficos
Autor(a) principal:	Magalhães, Gustavo Manuel Pinto de
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo:	http://hdl.handle.net/10400.22/15514
Resumo:	A categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.

Metadados do item

id	RCAP_7e8d1f2643fcca013c0aba92ae15e525
oai_identifier_str	oai:recipp.ipp.pt:10400.22/15514
network_acronym_str	RCAP
network_name_str	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str	https://opendoar.ac.uk/repository/7160
spelling	Employing text classification to facilitate economic and food safety law enforcingDenúnciasReclamaçãoClassificação de textoAprendizagem computacionalText classificationText classifiersComplaints classificationFeature selectionMachine learningA categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.Faria, Brígida MónicaReis, Luís PauloREPOSITÓRIO P.PORTOMagalhães, Gustavo Manuel Pinto de2022-09-30T00:30:52Z2019-112019-11-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/15514urn:tid:202445305enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-07T10:25:39Zoai:recipp.ipp.pt:10400.22/15514Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T00:53:44.323436Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv	Employing text classification to facilitate economic and food safety law enforcing
title	Employing text classification to facilitate economic and food safety law enforcing
spellingShingle	Employing text classification to facilitate economic and food safety law enforcing Magalhães, Gustavo Manuel Pinto de Denúncias Reclamação Classificação de texto Aprendizagem computacional Text classification Text classifiers Complaints classification Feature selection Machine learning
title_short	Employing text classification to facilitate economic and food safety law enforcing
title_full	Employing text classification to facilitate economic and food safety law enforcing
title_fullStr	Employing text classification to facilitate economic and food safety law enforcing
title_full_unstemmed	Employing text classification to facilitate economic and food safety law enforcing
title_sort	Employing text classification to facilitate economic and food safety law enforcing
author	Magalhães, Gustavo Manuel Pinto de
author_facet	Magalhães, Gustavo Manuel Pinto de
author_role	author
dc.contributor.none.fl_str_mv	Faria, Brígida Mónica Reis, Luís Paulo REPOSITÓRIO P.PORTO
dc.contributor.author.fl_str_mv	Magalhães, Gustavo Manuel Pinto de
dc.subject.por.fl_str_mv	Denúncias Reclamação Classificação de texto Aprendizagem computacional Text classification Text classifiers Complaints classification Feature selection Machine learning
topic	Denúncias Reclamação Classificação de texto Aprendizagem computacional Text classification Text classifiers Complaints classification Feature selection Machine learning
description	A categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.
publishDate	2019
dc.date.none.fl_str_mv	2019-11 2019-11-01T00:00:00Z 2022-09-30T00:30:52Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/15514 urn:tid:202445305
url	http://hdl.handle.net/10400.22/15514
identifier_str_mv	urn:tid:202445305
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP
instname_str	FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv	Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv	info@rcaap.pt
_version_	1833600745560080384

Employing text classification to facilitate economic and food safety law enforcing

Registros relacionados