Uma abordagem não supervisionada para classificação de opinião usando o recurso léxico SentiWordNet

Detalhes bibliográficos
Ano de defesa: 2011
Autor(a) principal: CAVALCANTI, Diana Cabral
Orientador(a): PRUDÊNCIO, Ricardo Bastos Cavalcante
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/1414
Resumo: Mineração de Opinião, também chamada de Análise de Sentimento, explora o estudo computacional de opiniões, sentimentos e emoções expressadas em fontes como textos não estruturados. Com a crescente popularidade e disponibilidade de recursos para se veicular opiniões na Web, os internautas passaram a ser não só um mero consumidor de um produto já pronto, mas também um gerador de conteúdo na Web. A classificação de sentimento tem o desafio de automatizar a análise de opiniões na Web, a fim de colaborar na forma como as pessoas podem, fazem e usam ativamente as tecnologias de informação para buscar e compreender as opiniões dos outros. Diversas pesquisas têm explorado métodos supervisionados e não supervisionados para classificação de sentimento que abrangem técnicas de processamento de linguagem natural, recuperação da informação e recursos léxicos. Este trabalho propõe o uso do recurso Léxico SentiWordNet, com um método não supervisionado, que realiza a seleção de termos unigrama nas classes gramaticais adjetivo, advérbio, substantivo e verbo, para classificar a polaridade, se negativa, positiva ou neutra, de termos e documentos. A fim de avaliar o desempenho do método, experimentos foram realizados em duas bases de dados, que abrangem comentários extraídos do Amazon.com e citações em artigos científicos. Os resultados obtidos experimentalmente mostraram que o SentiWordNet atingiu uma média de 76% para o total de termos distintos extraídos, a maior taxa de acerto global foi 58% para a base de documentos do Amazon.com e 18.83% para a base de artigos científicos