Detalhes bibliográficos
Ano de defesa: |
2014 |
Autor(a) principal: |
Araujo, Gabriela Denise |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de São Paulo (UNIFESP)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://repositorio.unifesp.br/handle/11600/41280
|
Resumo: |
Objetivo: Construir um método de classificação de sentimento, aqui denominado Sentiment Descriptor Indexing (SDI) ou Indexador de Descritores Sentimentais, para ser aplicado em mensagens do Twitter em português brasileiro relacionadas a temas de saúde possibilitando oferecer uma análise de sentimento com caracterização de aspectos da popularidade e repercussão dos temas. Métodos: A primeira etapa considerou a construção do algoritmo SDI que se baseia na coocorrência de termos do Twitter com descritores do vocabulário ANEW-BR. Emoticons e tratamento de negação foram incorporados no SDI. Na segunda etapa foi realizada uma avaliação do desempenho do algoritmo SDI para mensagens sobre o tema “câncer” de um pe-ríodo de três semanas. As mensagens foram classificadas por voluntários como sa-úde ou não saúde, e positiva, negativa ou neutra e em paralelo pelo SDI. As classifi-cações foram pareadas gerando uma avaliação de desempenho. Também foram geradas análise de sentimento e nuvem de termos. Na terceira etapa foi realizado um experimento de análise de sentimento para os temas “câncer” e “diabetes” em um período de seis meses, com análises de repercussão e popularidade. Resulta-dos: As classificações humana e SDI concordaram na classificação majoritária posi-tiva. Os valores de precisão e revocação resultaram 0,68 e 0,67 respectivamente, gerando melhor desempenho com f0,5-measure 0,68. No experimento coletou-se um total de 25.230 mensagens sobre o tema "câncer" com classificação de sentimento positiva (71%). Pela nuvem de palavras foi possível observar que celebridades, insti-tutos, hospitais, campanhas de saúde e tipos de câncer são assuntos populares so-bre o tema. Para o tema "diabetes" 3.328 mensagens foram coletadas com classifi-cação de sentimento positiva (78%). Para este tema as palavras mais frequentes, indicadas na nuvem de palavras, estavam relacionadas a alimentos e doenças como obesidade e hipertensão. Conclusão: Os resultados obtidos na etapa de avaliação do classificador SDI mostrou que o SDI teve um bom desempenho na tarefa de clas-sificar mensagens do Twitter sobre saúde comparada a classificação realizada por humanos. Entretanto, o tema escolhido retornou mensagens difíceis de serem rotu-ladas até mesmo pelos humanos, gerando discordâncias nas classificações. As con-tribuições deste trabalho visam suprir a falta de métodos de análise de sentimentos para a língua portuguesa brasileira bem como incentivar sua aplicação na melhoria de outras atividades em processamento de linguagem natural. |