Feature extraction from text flows based on semantic similarity for classification tasks: an approach inspired by audio analysis.

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: VASCONCELOS, Larissa Lucena.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/25059
Resumo: A classificação de texto é um dos principais desafios investigados na pesquisa em Processamento de Linguagem Natural. Um melhor desempenho de um modelo de classificação depende de uma representação que possa extrair informações valiosas sobre os textos. O problema discutido nesta pesquisa de doutorado é como melhorar as representações de texto incorporando semântica para melhorar a eficácia dos modelos de classificação de texto. Visando não perder informações locais dos textos, uma forma de representá-los é por meio de fluxos, sequências de informações coletadas deles. Esta tese propõe uma abordagem que combina várias técnicas de representação de textos: a representação por fluxos,o poder dos word embeddings associado a léxicos por meio de semelhança semântica e a extração de features inspiradas na área de análise de áudio. A abordagem divide o texto em frases e calcula uma distância de similaridade semântica para um léxico em um embedding space. A sequência de distâncias compõe o fluxo do texto. Em seguida, o método realiza a extração de vinte e cinco features inspiradas na análise de áudio(Audio-LikeFeatures). A adaptação de features da análise de áudio vem de uma semelhança entre um fluxo de texto e sinal digital, além do relacionamento existente entre texto, discurso falado e áudio. A avaliação experimental realizada compreende cinco tarefas de classificação de textos: Detecção de Fake News em Inglês e Português; Colunas de jornal versus notícias; Polaridade de Sentimentos envolvendo Resenhas de Filmes em Inglês e Resenhas de Livros em Português. Os experimentos compreenderam seis data sets e seis léxicos envolvendo os idiomas inglês e português. A eficácia da abordagem é comparada a fortes baselines que incorporam semântica na representação de texto: Paragraph Vector e BERT. O objetivo dos experimentos foi investigar se a abordagem proposta poderia competir com a eficácia dos métodos baseline ou melhorar sua eficácia quando associada a eles. A avaliação experimental demonstra que o método pode aumentar a eficácia da classificação dos métodos baseline em quatro dos cinco cenários.Na tarefa Detecção de Fake News em Português, a abordagem superou os baselines e obteve a melhor eficácia(PR-AUC=0,98). As features propostas alcançaram melhores resultados em modelos de Shallow Learning comparado a Deep Learning em três tarefas. Nenhum sub-conjunto de features apareceu entre os mais impactantes em todas as tarefas de classificação, destacando a importância de todas as vinte e cinco features.