Uma abordagem para sumarização automática semi-extrativa
Ano de defesa: | 2018 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/33305 |
Resumo: | A Sumarização Automática de Textos (SAT) consiste em criar versões comprimidas de um ou mais documentos de texto, mantendo as informações essenciais dos documentos. Essa área de pesquisa vem se tornando cada vez mais importante, já que potencialmente auxilia o processamento de grandes volumes de informações, permitindo destacar as informações mais relevantes para o usuário. Além de poder reduzir significativamente a quantidade de tempo que as pessoas despendem em tarefas de leitura. O uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de sumarização, principalmente quando se processam textos sem nenhuma estrutura e/ou padrão definido. Dentre as variações do processo de sumarização, as técnicas extrativas são as mais bem estudadas até o momento. O principal foco da investigação mais recente sobre sumarização extrativa é a otimização de algoritmos que visam obter o conteúdo relevante expresso nos textos originais. Porém, os ganhos relacionados com o aumento da complexidade desses algoritmos não foram ainda comprovados, já que os sumários continuam a ser difíceis de ler. Apesar dos avanços obtidos nos últimos anos, ainda existe uma grande diferença entre os resumos gerados automaticamente e os escritos por seres humanos. A maioria das estratégias atuais de sumarização preocupam-se principalmente em maximar a informatividade dos resumos, sem levar em consideração a qualidade textual. Investigações recentes na literatura e experimentos conduzidos neste trabalho demonstram que essas características são uma limitação significativa, já que os resumos devem ser gerados serem lidos por seres humanos. Nesse contexto, a presente tese propõe uma abordagem para sumarização automática semiextrativa que compreende à resolução de anáforas pronominais, reinserção de pronomes e redução de sentenças. Além disso, avaliaram-se medidas para estimar a qualidade textual de resumos candidatos sem o uso de um resumo de referência. Esta tese foca a sumarização automática numa perspectiva diferente, estudando o impacto da sumarização extrativa na abstrativa, a fim de produzir um sumário de melhor qualidade textual em termos de informatividade, legibilidade, fluência e coesão. Diversos experimentos foram conduzidos nos principais corpora da área, visando avaliar diferentes aspectos das abordagens propostas nas tarefas de sumarização monodocumento. Os resultados obtidos demonstram que as soluções apresentadas são capazes de aumentar a qualidade textual e a informatividade dos resumos gerados, com base nas avaliações humanas e automáticas para diversos sistemas do estado da arte. |