Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Lima, João Marcos Carvalho |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual do Ceará
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=95550
|
Resumo: |
<div style="text-align: justify;"><span style="font-size: 10pt;">Categorização de textos é uma tarefa em Processamento de Linguagem Natural (PLN) cujo desempenho depende de duas classes de algoritmos: algoritmos de representação textual e algoritmos de classificação. As primeiras soluções para representação textual foram baseadas apenas na contagem das palavras de um determinado corpus existentes no documento, como é o caso do modelo Bag-of-Words. Esta é uma abordagem eficiente em alguns casos, apesar de desconsiderar as relações semânticas entre as palavras e apresentar alta dimensionalidade na representação. Para tentar solucionar esse problema surgiram técnicas que representam textos em um nível semântico e com baixa dimensionalidade. Modelos Tópicos e Word Embedding são abordagens de representação de texto encontradas na literatura que exploram um nível semântico através da exploração de contexto para a formação de conceitos. Entretanto, em se tratando de textos curtos ou muito curtos, o contexto torna-se muito limitado. Esta dissertação apresenta uma avaliação comparativa de desempenho de diversas combinações de classificador com representações de texto na tarefa de categorização de textos curtos e muito curtos. Adicionalmente, o trabalho propõe e avalia uma representação denominada Combinação Tópicos Embeddings (CTE). Os experimentos são realizados sobre coleções de documentos publicamente disponíveis e fornecem subsídios para escolha de combinações classificador-representação entre aqueles avaliados. Textos de duas aplicações de interesse comercial são utilizados: análise de sentimentos e classificação de notícias. Os classificadores considerados são o SVM e o Naive Bayes e as representações são TF-IDF, LDA (Modelos Tópicos), Word Embedding e a representação proposta CTE. Palavras-chave: Representação de texto. Categorização de texto. Modelos Tópicos. Word Embedding. Textos curtos.</span></div> |