Uma abordagem para detecção de discurso de ódio utilizando aprendizado de máquina baseado em cruzamento de idiomas.
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27501 |
Resumo: | O crescimento das mídias sociais em todo o mundo trouxe benefícios e desafios para a sociedade. Dentre os desafios, destaca-se a proliferação do discurso de ódio nas redes sociais. Hodiernamente, a detecção de discurso do ódio tornou-se uma tarefa árdua. Cerca de 22,5 milhões de postagens com discurso de ódio foram removidas nas redes sociais entre abril e junho de 2020. Destarte, faz-se necessário o desenvolvimento de pesquisas que busquem soluções automatizadas para identificar e remover discurso de ódio nas redes sociais. Nesta tese, propõe-se uma nova metodologia para detecção de discurso de ódio em textos em português. Esta metodologia faz uso de Cross - Lingual Learning, que consiste em usar transferência de aprendizagem em Modelos de Linguagem Pré -Treinados (MLPTs) com um idioma com grandes corpora disponíveis (idioma fonte) para resolver problemas em idiomas com menos dados anotados (idioma alvo). A metodologia proposta compreende quatro etapas: aquisição de corpora, definição de MLPT, estratégias de treinamento e avaliação. Foram realizados experimentos utilizando Modelos de Linguagem Pré -Treinados em diferentes idiomas: Inglês, Italiano e Português (BERT e XLM-R) para verificar qual deles se adequava melhor ao método proposto. Corpora em inglês (WH) e italiano (Evalita 2018) foram utilizados como idioma fonte e dois corpora em português (idioma alvo) foram utilizados: OffComBr-2 e Hate Speech Dataset (HSD). Os resultados dos experimentos demonstraram que a metodologia proposta é competitiva com o estado da arte: para o corpus OffComBr-2 obteve-se o melhor resultado dentre os trabalhos que utilizaram o mesmo corpus, com Medida F1 = 92%; e para o corpus HSD, obteve-se o segundo melhor resultado, com Medida F1 = 90%. |