Detalhes bibliográficos
Ano de defesa: |
2005 |
Autor(a) principal: |
Medeiros Cabral, Davi |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/2780
|
Resumo: |
Com o crescimento da Internet, muitas informações vêm se tornando rapidamente disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco eficientes, deixando a obtenção das informações contidas no documento a cargo da atividade humana. Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para obtenção de informações encontradas em documentos-texto, visando à realização de um processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e extensibilidade desses sistemas. Esta dissertação propõe um framework, baseado em XML, para o desenvolvimento de sistemas de extração capazes de lidar com diferentes formatos de entrada e saída. Esses formatos representam as funcionalidades específicas, implementadas para cada uma de suas instâncias, enquanto as funcionalidades reutilizadas no domínio do problema são definidas pelo algoritmo de extração empregado. Dentre as diversas técnicas de extração de informações e aprendizagem de máquinas existentes, foi usada uma abordagem semi-automática baseada no algoritmo de indução definido no STALKER. Experimentos efetuados sobre artigos científicos mostram que o framework proposto é aplicável aos formatos de entrada PDF, PS, DOC, RTF e HTML; obtendo-se resultados satisfatórios quando comparados aos de sistemas já consolidados |