Identificação e desambiguação de menções a produtos em conteúdo gerado por usuários : um estudo de caso no domínio de jogos
Ano de defesa: | 2016 |
---|---|
Autor(a) principal: | |
Outros Autores: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal do Amazonas
Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://tede.ufam.edu.br/handle/tede/5291 |
Resumo: | Um problema bastante relevante para a análise de comentários postados por usuários em redes sociais é a identificação das entidades que são o alvo destes comentários. No entanto, identificar corretamente as entidades mencionadas em textos produzidos pelos usuários é uma tarefa desafiadora, visto que uma mesma entidade pode ser mencionada de várias maneiras diferentes, dependendo do usuário e de como a menção está sendo feita. Além disso, esses comentários são caracterizados por texto com baixa qualidade de escrita, erros ortográficos, gramaticais, etc. Neste trabalho, apresentamos um estudo de caso sobre o problema de identificação e desambiguação de menções a entidades em conteúdo gerado por usuários, voltado para o domínio de jogos. A escolha deste domínio deve-se à importância econômica e cultural deste tipo de conteúdo e também ao fato de a maioria dos trabalhos na literatura relacionada recente abordar este problema no contexto de produtos eletrônicos (televisores, smartphones, etc.). Como estratégia para a realização deste estudo de caso, desenvolvemos uma ferramenta chamada GameSpotter, que utiliza métodos de reconhecimento de entidades nomeadas (named entity recognition - NER) e de desambiguação de entidades nomeadas (named entity disambiguation - NED) para identificar e desambiguar as menções a jogos nos comentários postados em um fórum real daWeb. Para tanto, desenvolvemos dois métodos alternativos NER e um método de NED voltados ao domínio de jogos. Nossos resultados experimentais mostraram que nossos métodos de NER e NED são efetivos, tendo alcançado em média uma precisão de 0,93 e 0,83 em relação ao reconhecimento e desambiguação de menções a jogos, respectivamente. |