Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory)

Detalhes bibliográficos
Ano de defesa: 2010
Autor(a) principal: Jorge, Maria Lucía Del Rosario Castro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
CST
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07062010-112156/
Resumo: A sumarização automática multidocumento consiste em produzir um sumário ou resumo (como mais comumente é conhecido) a partir de um grupo de textos que versam sobre um mesmo assunto, contendo as informações mais relevantes de acordo com o interesse do usuário. No cenário atual, com a quantidade imensa de informação em constante crescimento e atualização, e o tempo cada vez mais reduzido disponível para apreender o conteúdo de interesse, sumários multidocumento têm se tornado um recurso importante. Nesta dissertação, foram explorados métodos de seleção de conteúdo para sumarização multidocumento com base no modelo de relacionamento multidocumento CST (Cross-document Structure Theory), proposto recentemente e já difundido na área de Processamento de Línguas Naturais. Em particular, neste trabalho, foram definidos e formalizados operadores de seleção de conteúdo para sumarização multidocumento com base no modelo CST. Estes operadores representam possíveis preferências de sumarização e focam-se no tratamento dos principais desafios presentes no processamento de múltiplos documentos: redundância, complementaridade e informações contraditórias. Estes operadores são especificados em templates contendo regras e funções que relacionam essas preferências às relações CST. Especificamente, foram definidos operadores para extrair a informação principal, apresentar informação de contexto, identificar autoria, tratar redundâncias e identificar informação contraditória. Também foi avaliado o impacto do uso do modelo CST em métodos de sumarização superficiais. Experimentos foram realizados com textos jornalísticos escritos em português brasileiro. Os resultados das avaliações mostram que o uso da teoria CST melhora a informatividade e a qualidade dos sumários gerados