Uma abordagem flexível para extração de metadados em citações bibliográficas

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: Vilarinho, Eli Cortez Custódio
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
BR
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede.ufam.edu.br/handle/tede/2947
Resumo: Nesta dissertação apresentamos o FLUX-CiM, um novo método de extração de componentes de citações bibliográficas tais como nomes de autores, títulos de artigo, números de página, etc. Tal método não se baseia em padrões específicos de codificação de delimitadores de um determinado estilo de citação que nos dá um alto grau de automação e flexibilidade e permite a extração de metadados a partir de citações em qualquer estilo. Diferentemente de abordagens anteriores que dependem de treinamento manual para realizar o reconhecimento de componentes em uma citação, no nosso caso, o método baseia-se em uma base de conhecimento automaticamente construída a partir de um conjunto existente de registros de metadados de um dado domínio, por exemplo: Ciência da Computação, Ciências da Saúde, Ciências Sociais, etc. Tal conjunto de registros com metadados pode ser facilmente obtido na Web ou através de outros repositórios de dados. Para demonstrar a eficácia e aplicabilidade do método proposto, apresentamos uma serie de experimentos que visam extrair dados de citações bibliográficas de artigos. Os resultados destes experimento apresentam níveis precisão e revocação acima de 94% para todos os domínios, bem como extração perfeita para a grande maioria das citações testadas. Além disso, em uma comparação com o método que representa o estado da arte de extração de informação, o FLUX-CiM produziu resultados superiores sem a fase de treino que é exigida por esse método. Por fim, apresentamos uma estratégia para a utilização de dados bibliográficos resultante do processo de extração com FLUX-CIM para automaticamente atualizar e expandir a base de conhecimento de um determinado domínio. Mostramos que esta estratégia pode ser usada para alcançar bons resultados de extração mesmo quando apenas uma pequena amostra inicial de registros bibliográficos está disponível para a construção da base de conhecimento.