Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Carnevali, Julio Cesar |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16112020-155518/
|
Resumo: |
O aprendizado semissupervisionado baseado em uma única classe, amplamente conhecido pelo termo em inglês Positive and Unlabeled Learning (PUL), é um método atrativo para aplicações práticas, pois o usuário só precisa rotular documentos de seu interesse, evitando o esforço de rotular documentos para todas as classes da coleção, tarefa necessária nos métodos multiclasse. Além dos documentos de interesse do usuário, são utilizados também documentos não rotulados durante o processo de aprendizagem, para então classificar os documentos entre classe de interesse ou não (também denominados como documentos positivos e negativos respectivamente). Esse método de aprendizado pode ser utilizado para construir modelos de classificação, recuperação de informação, ou sistemas de recomendação. As abordagens PUL encontradas na literatura raramente fazem uso da representação de dados por meio de grafos. Dado que esse meio de representação de dados é pouco explorado no contexto de PUL, e dado que seu uso em abordagens do aprendizado semissupervisionado para classificação de textos produz resultados tão bons quanto e até melhores que abordagens baseadas no modelo espaço-vetorial, neste projeto de mestrado, é proposto uma abordagem baseada em grafo para PUL denominada, Label Propagation for Positive and Unlabeled Learning (LP-PUL). O método proposto consiste de 3 etapas: (i) construção do grafo para representação da coleção textual, (ii) identificação de documentos negativos, e (iii) propagação dos rótulos positivo e negativo para os demais documentos não rotulados. Foi realizada uma extensa avaliação empírica utilizando um grande número de coleções e parâmetros para cada algoritmo utilizado. Durante a avaliação, foi medido o impacto das diferentes escolhas de algoritmos para cada etapa acima mencionadas. Além disso, o método proposto foi comparado com algoritmos PUL baseados em grafos e no modelo espaço-vetorial. Ao final, foi demonstrado que o método proposto obtém melhor performance de classificação que os demais algoritmos PUL. |