Extração de passagens de texto usando um método independente de domínio.

Detalhes bibliográficos
Ano de defesa: 2009
Autor(a) principal: SILVA, Welmisson Jammesson da.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4982
Resumo: Extração de Informação (EI) é uma coleção de métodos e técnicas que têm como objetivo extrair, de fontes semi-estruturadas ou não-estruturadas, informação relevante. Um sistema de EI é capaz de extrair, de fontes de informação textuais, apenas informação que seja do interesse dos usuários do sistema, as partes que não são interessantes aos usuários não são extraídas. Nesta dissertação, é proposto um novo método supervisionado de EI em que a informação extraída, partes de um texto, não é estruturada; isto representa um avanço em relação à EI ‘tradicional’, em que a informação extraída é estruturada segundo um template definido por usuário. Sendo supervisionada, a extração de informação de novos documentos é induzida de uma coleção prévia de documentos com suas partes relevantes assinaladas - conjunto de treinamento -; porém, o método inova sentido de que o conjunto de treinamento pode ser muito pequeno em termos absolutos, resultando em um baixo custo de preparação do mesmo. Outra novidade do método está em sua técnica de extração, que é uma adequada combinação de técnicas existentes. Independência de domínio e de formato de documentos são outras duas importantes características do método. Para a validação do método, o sistema TIES-Textual Information Extraction System foi desenvolvido e testado com dois domínios díspares, um sobre sistemas elétricos de potência e o outro sobre legislação para administração pública: os resultados dos testes, para os dois domínios, revelaram-se promissores.