Uma arquitetura para sistemas de busca semântica para recuperação de informações em repositórios de biodiversidade

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Amanqui, Flor Karina Mamani
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03072014-150009/
Resumo: A diversidade biológica é essencial para a sustentabilidade da vida na Terra e motiva numerosos esforços para coleta de dados sobre espécies, dando origem a uma grande quantidade de informação. Esses dados são geralmente armazenados em bancos de dados relacionais. Pesquisadores usam esses bancos de dados para extrair conhecimento e compartilhar novas descobertas. No entanto, atualmente a busca tradicional (baseada em palavras-chave) já não é adequada para ser usada em grandes quantidades de dados heterogêneos, como os de biodiversidade. Ela tem baixa precisão e revocação para esse tipo de dado. Este trabalho apresenta uma nova arquitetura para abordar esse problema aplicando técnicas de buscas semânticas em dados sobre biodiversidade e usando formatos e ferramentas da Web Semântica para representar esses dados. A busca semântica tem como objetivo melhorar a acurácia dos resultados de buscas com o uso de ontologias para entender os objetivos dos usuários e o significado contextual dos termos utilizados. Este trabalho também apresenta os resultados de testes usando um conjunto de dados representativos sobre biodiversidade do Instituto Nacional de Pesquisas da Amazônia (INPA) e do Museu Paraense Emílio Goeldi (MPEG). Ontologias permitem que conhecimento seja organizado em espaços conceituais de acordo com seu significado. Para a busca semântica funcionar, um ponto chave é a criação de mapeamentos entre os dados (neste caso, dados sobre biodiversidade do INPA e MPEG) e termos das ontologias que os descrevem, neste caso: a classificação taxonômica de espécies e a OntoBio, a ontologia de biodiversidade do INPA. Esses mapeamentos foram criados depois que extraímos a classificação taxonômica do site Catalog of Life (CoL) e criamos uma nova versão da OntoBio. Um protótipo da arquitetura foi construído e testado usando casos de uso e dados do INPA e MPEG. Os resultados dos testes mostraram que a abordagem da busca semântica tinha uma melhor precisão (28% melhor) e revocação (25% melhor) quando comparada com a busca por palavras-chave. Eles também mostraram que é possível conectar facilmente os dados mapeados a outras fontes de dados abertas, como a fonte Amazon Forest Linked Data do Instituto Nacional de Pesquisas Espaciais. (INPE)