Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
NASCIMENTO, Paulo de Assis |
Orientador(a): |
ALMEIDA, Leandro Maciel |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/35860
|
Resumo: |
A popularização da internet no Brasil e o vasto uso das redes sociais permitem às pessoas a ter voz ativa onde suas opiniões não estão mais restritas a ambientes familiares. O constante uso da internet desencadeia a criação de conteúdos diversos e muito valiosos para negócios e tomadas de decisão. Estima-se que no Brasil haverá 99,4 milhões de usuários acessando a internet até o final do ano 2019. O conteúdo lançado na web desperta o interesse das empresas que desejam melhorar seus produtos e serviços. Reunir esses dados, processá-los e transformá-los em informação útil, é essencial para mapear os perfis de consumo dos usuários na web. Para isso, é necessário lançar mão de recursos automáticos de processamento de textos. O processamento automático desse tipo de informação está ligado à atividade de Análise de Sentimentos (AS), que trata do processamento automático de textos opinativos na web classificando-os em sentimentos. A aplicação dessa técnica em português do Brasil ainda é bastante modesta. Neste sentido, este trabalho explora a aplicação da técnica de ensemble para classificar textos curtos em português do Brasil, sobre o problema de múltiplas classes, utilizando a abordagem de Aprendizagem de Máquina (AM). Ensembles, em Aprendizagem de Máquina, são utilizados quando se deseja unir em um comitê os pontos fortes de cada algoritmo. Dessa forma eles atuam como algoritmos complementares para atingir melhores resultados em relação às suas capacidades de forma isolada. Para tal, sete classificadores clássicos de Aprendizagem de Máquina (AM) foram selecionados. Para os experimentos, os corpora 2000-tweets-BR e o TweetSentBR disponíveis na literatura recente foram utilizados, ambos contém três classes. Nos experimentos, os classificadores foram treinados e testados de forma isolada a fim de obter seus resultados médios em acurácia, F-Measure, Brier Score e tempo de execução por meio da técnica de validação cruzada para posterior comparação com os ensembles. O teste de Shapiro-Wilk foi utilizado sobre os dados a fim de verificar a normalidade, e assim decidir o tipo de teste de hipótese a ser aplicado. Todos os classificadores isolados foram combinados entre si formando oito ensembles dos quais uma combinação foi baseada na métrica Brier Score. Os testes com algoritmos clássicos obtiveram os resultados médios de 71% de acurácia, 46% F-Measure, e 93 segundos de tempo de execução sobre o córpus TweetSentBR. E sobre o córpus 2000-tweets-BR foram obtidos 68% de acurácia, 57% de F-Measure e 0,430 segundos de tempo de execução. Os resultados obtidos em valores médios nos testes combinando classificadores em ensemble juntamente com o voto majoritário foram de 71% de acurácia, 50% de F-Measure, e 189 segundos em tempo de execução sobre o corpus TweetSentBR. Sobre o córpus 2000-tweets-BR os resultados médios obtidos foram de 69% de acurácia, 52% F-Measure e 163 segundos de tempo de execução. |