Identificação de comentários ofensivos da Web

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Pelle, Rogers Prates de
Orientador(a): Moreira, Viviane Pereira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/193539
Resumo: Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.