Detalhes bibliográficos
Ano de defesa: |
2016 |
Autor(a) principal: |
Rodrigues, Lucas de Souza |
Orientador(a): |
Matsubara, Edson Takashi,
Nogueira, Bruno Magalhães |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufms.br/handle/123456789/2869
|
Resumo: |
O uso de Aprendizado de Máquina (AM), tem sido amplamente utilizado em problemas reais nos últimos anos. Este trabalho propõe o uso de técnicas em AM para problemas com dados textuais, com abordagem em algoritmos baseados em regras lexicográficas e legitimamente rankeadores. Com a popularização dos dados em meio digitais, torna-se interessante aplicar técnicas de AM para melhor organizar as informações contidas neste vasto campo de bases textuais. O aprendizado supervisionado, uma área de AM, com uso de algoritmos de rankeamento é uma alternativa viável para ambientes que possuem poucos dados rotulados. Logo, para alcançar os desafios deste trabalho é proposto o algoritmo FLEXRANK que tem o objetivo de rankear conjuntos textuais massivos. Para realizar tal feito FLEXRANK conta com uma estratégia simples que utiliza apenas atributos relevantes e por conseguinte realiza lexicograficamente a ordenação dos exemplos em um conjunto de dados. Deste modo, inicialmente são apresentados os tipos de algoritmos de AM, medidas de avaliação em algoritmos de classificação, rankeamento e abordagem dos algoritmos LEXRANK e FLEXRANK proposto neste trabalho. Trabalhos que possuem correlação de ranking de textos, especialmente aqueles que atuam em mineração de textos, são abordados neste estudo. Destaca-se também estudos anteriores com foco a balizar os experimentos e resultados acalçados ao longo deste trabalho. FLEXRANK foi avaliado empiricamente sobre uma série de conjuntos de dados em comparação com os algoritmos SVM, Árvores de Decisão, Naive Bayes, KNN e LEXRANK. Os resultados demonstram que para os problemas de classificação de textos massivos, FLEXRANK tem resultados comparáveis, por meio de Curva ROC AUC, a SVM e mais rápido do que Árvores de Decisão para classificar novos exemplos. |