Detalhes bibliográficos
Ano de defesa: |
2024 |
Autor(a) principal: |
Abonizio, Hugo Queiroz |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.uel.br/handle/123456789/8381
|
Resumo: |
Resumo: Data augmentation é um método amplamente adotado para melhorar o desempenho de modelos em tarefas de classificação de imagens Embora ainda não seja tão presente na comunidade de Processamento de Linguagem Natural (PLN), alguns métodos já foram propostos para aumentar a quantidade de dados de treinamento, como transformações simples no texto original ou a geração de novas amostras através de modelos de linguagem No entanto, aplicações recentes de classificação de texto precisam lidar com domínios caracterizados por uma pequena quantidade de texto e escrita informal, como conteúdo de redes sociais virtuais, por exemplo, o que reduz a capacidade dos métodos atuais Enfrentando esses desafios e tirando proveito dos modelos de linguagem pré-treinados e compressão de modelos, propusemos o método PRE-training Data AugmenTOR (PREDATOR) Nosso método de augmentation é composto por dois módulos: o Gerador, que sintetiza novas amostras baseadas em um modelo de linguagem de baixo custo computacional, e o Filtro, que seleciona apenas as amostras de alta qualidade Os experimentos comparando Bidirectional Encoder Representations from Transformer (BERT), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM) e Multinomial Naïve Bayes (NB) em seis conjuntos de dados demonstraram uma efetiva melhoria no desempenho Foi obtida uma melhora de 28,5% de acurácia com LSTM no melhor cenário e uma melhoria média de 8% nos cenários de escassez de dados Em conjuntos de dados com classes desbalanceadas o método melhorou em 64% o ??1-score O PREDATOR conseguiu aumentar os conjuntos de dados de mídia social do mundo real e outros domínios, superando as técnicas recentes de augmentation de texto |