Extração de passagens de texto usando um método independente de domínio.
Ano de defesa: | 2009 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4982 |
Resumo: | Extração de Informação (EI) é uma coleção de métodos e técnicas que têm como objetivo extrair, de fontes semi-estruturadas ou não-estruturadas, informação relevante. Um sistema de EI é capaz de extrair, de fontes de informação textuais, apenas informação que seja do interesse dos usuários do sistema, as partes que não são interessantes aos usuários não são extraídas. Nesta dissertação, é proposto um novo método supervisionado de EI em que a informação extraída, partes de um texto, não é estruturada; isto representa um avanço em relação à EI ‘tradicional’, em que a informação extraída é estruturada segundo um template definido por usuário. Sendo supervisionada, a extração de informação de novos documentos é induzida de uma coleção prévia de documentos com suas partes relevantes assinaladas - conjunto de treinamento -; porém, o método inova sentido de que o conjunto de treinamento pode ser muito pequeno em termos absolutos, resultando em um baixo custo de preparação do mesmo. Outra novidade do método está em sua técnica de extração, que é uma adequada combinação de técnicas existentes. Independência de domínio e de formato de documentos são outras duas importantes características do método. Para a validação do método, o sistema TIES-Textual Information Extraction System foi desenvolvido e testado com dois domínios díspares, um sobre sistemas elétricos de potência e o outro sobre legislação para administração pública: os resultados dos testes, para os dois domínios, revelaram-se promissores. |