Employing text classification to facilitate economic and food safety law enforcing
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2019 |
| Tipo de documento: | Dissertação |
| Idioma: | eng |
| Título da fonte: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| Texto Completo: | http://hdl.handle.net/10400.22/15514 |
Resumo: | A categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar. |
| id |
RCAP_7e8d1f2643fcca013c0aba92ae15e525 |
|---|---|
| oai_identifier_str |
oai:recipp.ipp.pt:10400.22/15514 |
| network_acronym_str |
RCAP |
| network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository_id_str |
https://opendoar.ac.uk/repository/7160 |
| spelling |
Employing text classification to facilitate economic and food safety law enforcingDenúnciasReclamaçãoClassificação de textoAprendizagem computacionalText classificationText classifiersComplaints classificationFeature selectionMachine learningA categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar.Faria, Brígida MónicaReis, Luís PauloREPOSITÓRIO P.PORTOMagalhães, Gustavo Manuel Pinto de2022-09-30T00:30:52Z2019-112019-11-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/15514urn:tid:202445305enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-07T10:25:39Zoai:recipp.ipp.pt:10400.22/15514Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T00:53:44.323436Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
| dc.title.none.fl_str_mv |
Employing text classification to facilitate economic and food safety law enforcing |
| title |
Employing text classification to facilitate economic and food safety law enforcing |
| spellingShingle |
Employing text classification to facilitate economic and food safety law enforcing Magalhães, Gustavo Manuel Pinto de Denúncias Reclamação Classificação de texto Aprendizagem computacional Text classification Text classifiers Complaints classification Feature selection Machine learning |
| title_short |
Employing text classification to facilitate economic and food safety law enforcing |
| title_full |
Employing text classification to facilitate economic and food safety law enforcing |
| title_fullStr |
Employing text classification to facilitate economic and food safety law enforcing |
| title_full_unstemmed |
Employing text classification to facilitate economic and food safety law enforcing |
| title_sort |
Employing text classification to facilitate economic and food safety law enforcing |
| author |
Magalhães, Gustavo Manuel Pinto de |
| author_facet |
Magalhães, Gustavo Manuel Pinto de |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Faria, Brígida Mónica Reis, Luís Paulo REPOSITÓRIO P.PORTO |
| dc.contributor.author.fl_str_mv |
Magalhães, Gustavo Manuel Pinto de |
| dc.subject.por.fl_str_mv |
Denúncias Reclamação Classificação de texto Aprendizagem computacional Text classification Text classifiers Complaints classification Feature selection Machine learning |
| topic |
Denúncias Reclamação Classificação de texto Aprendizagem computacional Text classification Text classifiers Complaints classification Feature selection Machine learning |
| description |
A categorização de textos é uma tarefa de aprendizagem supervisionada que visa atribuir rótulos a documentos com base no resultado previsto sugerido por um classificador treinado num conjunto de documentos rotulados. Com a crescente disponibilidade de informação textual que acompanha o crescimento cada vez maior da internet e dos dados disponíveis online, a capacidade de executar de forma automatizada tarefas demoradas para um ser humano, bem como a capacidade de encontrar padrões ou extrair informações valiosas dos dados, é incrivelmente ponderosa. Assim, a associação da classificação do texto para facilitar a rotulagem de relatórios e reclamações nos campos económicos e de saúde poder ter um impacto tremendo na velocidade com que estas são processadas e, portanto, diminuindo o tempo necessário para agir sobre estas reclamações e relatórios. Neste trabalho, avaliamos o desempenho da capacidade de classificação de 9 algoritmos em diferentes níveis de fluxo metodológico de classificação textual: pré-processamento, normalização de palavras, extração de características, seleção de características, otimização de hiper-parâmetos e avaliação. Estes algoritmos são: Naive Bayes Complementar; Naive Bayes de Bernoulli; Naive Bayes Multinominal, K-Vizinhos mais próximos, Àrvores de Decisão, Florestas Aleatóreas, Máquinas de Suporte Vectorial, AdaBoost e Regressão Logística. Os principais resultados revelam que foram atingidos níveis de taxa de acerto elevadas, na casa dos 67% e 85% em dois conjuntos de dados com alvos de rotulagem diferentes. Foi também observado que os classificadores lineares focados (máquina de suporte vectorial e regressão logística) permitiram a obtenção de, para além de valores de acerto mais altos, valores da métrica f1 mais altos do que os restantes. Para além disto, foram observadas, algumas situações de documentos que não foram bem classificados por falta de características únicas e, pelo facto das categorias destes documentos terem uma representação baixa nos dados. Este trabalho permite concluir que o uso destes algoritmos é mais adequado para os conjuntos de dados em questão e que é possível a aplicação de métodos de classificação de texto para facilitar e auxiliar o processamento de denúncias e reclamações, levando a uma ação mais rápida por parte das autoridades competentes. Assim, a aposta na classificação textual de denúncias pode influenciar positivamente a quer a prevenção de crimes económicos quer a melhoria da saúde pública, neste caso, por meio da fiscalização alimentar. |
| publishDate |
2019 |
| dc.date.none.fl_str_mv |
2019-11 2019-11-01T00:00:00Z 2022-09-30T00:30:52Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/15514 urn:tid:202445305 |
| url |
http://hdl.handle.net/10400.22/15514 |
| identifier_str_mv |
urn:tid:202445305 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
| instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| instacron_str |
RCAAP |
| institution |
RCAAP |
| reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| repository.mail.fl_str_mv |
info@rcaap.pt |
| _version_ |
1833600745560080384 |