Detalhes bibliográficos
Ano de defesa: |
2018 |
Autor(a) principal: |
VIEIRA, Arthur Caíque Bezerra |
Orientador(a): |
PRUDENCIO, Ricardo Bastos Cavalcante |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/34142
|
Resumo: |
A popularização de fóruns online e do e-commerce favoreceu o aumento do número de comentários/avaliações na Web sobre produtos e serviços, sendo impraticável analisar manualmente essa enorme quantidade de comentários. Para vencer esse desafio, lançamos mão de uma área da computação denominada de Mineração deOpinião (MO) – também conhecida como Análise de Sentimento. A MO busca extrair de textos em linguagem natural opiniões sobre entidades (produtos, serviços, pessoas, marcas, eventos, etc) e seus aspectos (características detalhadas de cada entidade - e.g., tamanho e peso de um celular). O objetivo final é classificar as opiniões extraídas entre positivas ou negativas, a fim de identificar como cada entidade e seus aspectos estão sendo avaliados pelos usuários. Este trabalho de mestrado investigou a MO a partir de resenhas em Português sobre produtos, com foco principal na primeira etapa da MO, isto é, na extração de termos referentes a entidades e seus aspectos. Devido à escassez de dados (comentários/resenhas) rotulados com informações de termos de aspecto na língua portuguesa, torna-se difícil a utilização de técnicas supervisionadas para a extração de termos de aspectos. Assim, este trabalho foi desenvolvido dentro da abordagem não supervisionada (baseadas em conhecimento - regras explícitas considerando informações estatísticas e/ou linguísticas, ontologias, etc), que tem obtido desempenho comparável à abordagem supervisionada pra a língua portuguesa. Este trabalho utilizou como ponto de partida um algoritmo originalmente construído para a língua inglesa que apresenta altas taxas de cobertura na tarefa de extração: o Double Propagation (DP). Esse algoritmo se baseia na classe gramatical das palavras nas frases, e em relações de dependência sintática entre as palavras nas frases para realizar a extração de termos de aspectos. Como contribuição principal deste trabalho, o algoritmo DP original foi adaptado para a língua portuguesa. A seguir, foram propostos mais tipos de relações de dependência sintática no processo de extração considerando mais classes gramaticais do que o algoritmo base. Como contribuição secundária, este trabalho também investigou a efetividade do uso de normalizadores de texto no processamento de resenhas oriundas da Web (que geralmente contêm erros ortográficos e gramaticais, e também erros de pontuação). Os experimentos realizados compararam diversas configurações do processo de extração, variando tanto o algoritmo de extração (o original e o ampliado com novas regras) quanto os recursos externos (e.g., normalizadores de texto, configurações dos métodos de poda/pruning e léxicos de sentimento). Os resultados obtidos foram bastante promissores, sendo comparáveis a outras abordagens já utilizadas em trabalhos com foco na língua portuguesa. |