Detalhes bibliográficos
Ano de defesa: |
2014 |
Autor(a) principal: |
Moreira, Carlos Eduardo Manzoni |
Orientador(a): |
Moreira, Viviane Pereira |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/95074
|
Resumo: |
A Wikipédia é uma enciclopédia pública composta por milhões de artigos editados diariamente por uma comunidade de autores de diferentes regiões do mundo. Os artigos que constituem a Wikipédia possuem um tipo de link chamado de Cross-language Link que relaciona artigos correspondentes em idiomas diferentes. O objetivo principal dessa estrutura é permitir a navegação dos usuários por diferentes versões de um mesmo artigo em busca da informação desejada. Além disso, por permitir a obtenção de corpora comparáveis, os Cross-language Links são extremamente importantes para aplicações que trabalham com tradução automática e recuperação de informações multilíngues. Visto que os Cross-language Links são inseridos manualmente pelos autores dos artigos, quando o autor não reconhece o seu correspondente em determinado idioma ocorre uma situação de Cross-language Links ausente. Sendo assim, é importante o desenvolvimento de uma abordagem que realize a descoberta de Cross-language Links entre artigos que são correspondentes, porém, não estão conectados por esse tipo link. Nesta dissertação, é apresentado o CLLFinder, uma abordagem para a descoberta de Cross-language Links ausentes. A nossa abordagem utiliza o relacionamento entre as categorias e a indexação e consulta do conteúdo dos artigos para realizar a seleção do conjunto de candidatos. Para a identificação do artigo correspondente, são utilizados atributos que exploram a transitividade de Cross-language Links entre outros idiomas bem como características textuais dos artigos. Os resultados demonstram a criação de um conjunto de candidatos com 84,3% de presença do artigo correspondente, superando o trabalho utilizado como baseline. A avaliação experimental com mais de dois milhões de pares de artigos aponta uma precisão de 99,2% e uma revocação geral de 78,9%, superando, também, o baseline. Uma inspeção manual dos resultados do CLLFinder aplicado em um cenário real indica que 73,6% dos novos Cross-language Links sugeridos pela nossa abordagem eram de fato correspondentes. |