Alinhamento automático de textos e sumários multidocumento

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Agostini, Verônica
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-11012018-165357/
Resumo: Com o excesso de informação disponível online, a Sumarização Automática tornouse uma área de bastante interesse na grande área da Inteligência Artificial. Alguns autores tentaram caracterizar o processo de sumarização para compreender melhor como sumarizadores o realizam. O alinhamento de um sumário e seus textos fonte pode ser encarado como uma caracterização desse processo. Com relação à sumarização automática, a técnica de alinhamento consiste em obter relações entre segmentos de um ou vários textos e seu sumário e, da forma que o conteúdo de um segmento esteja contido no outro. Uma vez obtidas essas relações, tornase possível (i) aprender como sumarizadores profissionais realizam a sumarização, (ii) explicitar regras e modelos para a sumarização, e (iii) criar métodos automatizados utilizando as regras e modelos explicitados, o que traz uma contribuição à Sumarização Automática. Neste trabalho, foram propostas três abordagens dentro das abordagens superficiais e profundas do Processamento de Língua Natural para realizar os alinhamentos de forma automática. A primeira utiliza três métodos superficiais, sendo eles Word overlap, tamanho relativo e posição relativa. A segunda caracterizase em uma técnica de alinhamento com mais conhecimento linguístico, pois nela foi utilizada uma teoria discursiva, a CST (CrossDocument Structure Theory). A terceira utiliza Aprendizado de Máquina, caracterizando uma abordagem híbrida dada a característica de seus atributos superficiais e profundos, relativo à primeira e à segunda abordagem. Uma avaliação comparativa entre elas, e também entre um trabalho da literatura, foi realizada. Quando os dados do aprendizado de máquina eram balanceados, foi atingido o valor de 97,2% de medidaF, maior valor encontrado. O método superficial Word overlap também obteve um bom resultado, sendo ele 66,2% de medidaF.