FlexRank: um rankeador lexicográfico rápido

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Rodrigues, Lucas de Souza lattes
Orientador(a): Matsubara, Edson Takashi lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Mato Grosso do Sul
Programa de Pós-Graduação: Programa de pós-graduação em Ciência da Computação
Departamento: Faculdade de Computação
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.ufgd.edu.br/jspui/handle/prefix/2995
Resumo: O uso de Aprendizado de Máquina (AM), tem sido amplamente utilizado em problemas reais nos últimos anos. Este trabalho propõe o uso de técnicas em AM para problemas com dados textuais, com abordagem em algoritmos baseados em regras lexicográficas e legitimamente rankeadores. Com a popularização dos dados em meio digitais, torna-se interessante aplicar técnicas de AM para melhor organizar as informações contidas neste vasto campo de bases textuais. O aprendizado supervisionado, uma área de AM, com uso de algoritmos de rankeamento é uma alternativa viável para ambientes que possuem poucos dados rotulados. Logo, para alcançar os desafios deste trabalho é proposto o algoritmo FLEXRANK que tem o objetivo de rankear conjuntos textuais massivos. Para realizar tal feito FLEXRANK conta com uma estratégia simples que utiliza apenas atributos relevantes e por conseguinte realiza lexicograficamente a ordenação dos exemplos em um conjunto de dados. Deste modo, inicialmente são apresentados os tipos de algoritmos de AM, medidas de avaliação em algoritmos de classificação, rankeamento e abordagem dos algoritmos LEXRANK e FLEXRANK proposto neste trabalho. Trabalhos que possuem correlação de ranking de textos, especialmente aqueles que atuam em mineração de textos, são abordados neste estudo. Destaca-se também estudos anteriores com foco a balizar os experimentos e resultados acalçados ao longo deste trabalho. FLEXRANK foi avaliado empiricamente sobre uma série de conjuntos de dados em comparação com os algoritmos SVM, Árvores de Decisão, Naive Bayes, KNN e LEXRANK. Os resultados demonstram que para os problemas de classificação de textos massivos, FLEXRANK tem resultados comparáveis, por meio de Curva ROC AUC, a SVM e mais rápido do que Árvores de Decisão para classificar novos exemplos.