Descoberta de cross-language links ausentes na wikipédia

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Moreira, Carlos Eduardo Manzoni
Orientador(a): Moreira, Viviane Pereira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/95074
Resumo: A Wikipédia é uma enciclopédia pública composta por milhões de artigos editados diariamente por uma comunidade de autores de diferentes regiões do mundo. Os artigos que constituem a Wikipédia possuem um tipo de link chamado de Cross-language Link que relaciona artigos correspondentes em idiomas diferentes. O objetivo principal dessa estrutura é permitir a navegação dos usuários por diferentes versões de um mesmo artigo em busca da informação desejada. Além disso, por permitir a obtenção de corpora comparáveis, os Cross-language Links são extremamente importantes para aplicações que trabalham com tradução automática e recuperação de informações multilíngues. Visto que os Cross-language Links são inseridos manualmente pelos autores dos artigos, quando o autor não reconhece o seu correspondente em determinado idioma ocorre uma situação de Cross-language Links ausente. Sendo assim, é importante o desenvolvimento de uma abordagem que realize a descoberta de Cross-language Links entre artigos que são correspondentes, porém, não estão conectados por esse tipo link. Nesta dissertação, é apresentado o CLLFinder, uma abordagem para a descoberta de Cross-language Links ausentes. A nossa abordagem utiliza o relacionamento entre as categorias e a indexação e consulta do conteúdo dos artigos para realizar a seleção do conjunto de candidatos. Para a identificação do artigo correspondente, são utilizados atributos que exploram a transitividade de Cross-language Links entre outros idiomas bem como características textuais dos artigos. Os resultados demonstram a criação de um conjunto de candidatos com 84,3% de presença do artigo correspondente, superando o trabalho utilizado como baseline. A avaliação experimental com mais de dois milhões de pares de artigos aponta uma precisão de 99,2% e uma revocação geral de 78,9%, superando, também, o baseline. Uma inspeção manual dos resultados do CLLFinder aplicado em um cenário real indica que 73,6% dos novos Cross-language Links sugeridos pela nossa abordagem eram de fato correspondentes.