Um framework para extração de informações: uma abordagem baseada em XML

Medeiros Cabral, Davi

Um framework para extração de informações: uma abordagem baseada em XML

Detalhes bibliográficos
Ano de defesa:	2005
Autor(a) principal:	Medeiros Cabral, Davi
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Pernambuco
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Framework Engenharia de Software Documentos XML Inteligência Artificial Aprendizagem de Máquina Extração de Informação
Link de acesso:	https://repositorio.ufpe.br/handle/123456789/2780
Resumo:	Com o crescimento da Internet, muitas informações vêm se tornando rapidamente disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco eficientes, deixando a obtenção das informações contidas no documento a cargo da atividade humana. Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para obtenção de informações encontradas em documentos-texto, visando à realização de um processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e extensibilidade desses sistemas. Esta dissertação propõe um framework, baseado em XML, para o desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de entrada e saída. Esses formatos representam as funcionalidades específicas, implementadas para cada uma de suas instâncias, enquanto as funcionalidades reutilizadas no domínio do problema são definidas pelo algoritmo de extração empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo de indução definido no STALKER. Experimentos efetuados sobre artigos científicos mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC, RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas já consolidados

Um framework para extração de informações: uma abordagem baseada em XML

Registros relacionados