A study on offensive video detection

Alcântara, Cleber de Souza

A study on offensive video detection

Detalhes bibliográficos
Ano de defesa:	2020
Autor(a) principal:	Alcântara, Cleber de Souza
Orientador(a):	Moreira, Viviane Pereira
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Usuários : Web Dado Aprendizado de máquina Conteúdo ofensivo
Palavras-chave em Inglês:	Offensive content hate speech dataset classification machine learning youtube video
Link de acesso:	http://hdl.handle.net/10183/211309
Resumo:	Usuários da Web em todo o mundo produzem e publicam grandes volumes de dados de vários tipos, como texto, imagens e vídeos. Para manter um ambiente amigável e respeitoso, as plataformas nas quais esse conteúdo é publicado geralmente impedem os usuários de publicar conteúdo ofensivo e contam com moderadores para filtrar as postagens. No entanto, esse método é insuficiente devido ao alto volume de publicações. A identificação de conteúdo ofensivo pode ser realizada automaticamente usando aprendizado de máquina, mas precisa de um conjunto de dados anotado. Embora existam conjuntos de dados disponíveis para detecção de texto ofensivo, não existem conjuntos de dados para vídeos. Além disso, a maioria dos conjuntos de dados publicados processa dados em inglês, deixando português e outras linguagens com pouca representatividade. Neste trabalho, investigamos o problema da detecção de vídeo ofensivo. Nós montamos, descrevemos e publicamos um conjunto de dados de vídeos em português. Além disso, realizamos experimentos usando classificadores populares de aprendizado de máquina usados na detecção de linguagem ofensiva e relatamos nossas descobertas, juntamente com várias métricas de avaliação. Nos resultados, descobrimos que word embedding forneceram resultados melhores quando utilizado com Deep Learning, mas n-gram foi melhor do que word embedding para algoritmos Clássicos. Os classificadores Random Forest e Naive Bayes apresentaram o melhor desempenho na maioria dos atributos quando comparados aos outros classificadores Clássicos. A arquirtetura W-CNN utilizada no nosso estudo apresentou os melhores resultados para a maioria dos conjuntos de atributos utilizando Deep Learning. Para modelos de Transfer Learning, BERT foi o melhor classificador para a maioria dos conjuntos de atributos. Além disso, para os experimentos com ensemble, Naive Bayes, Random Forest, M-CNN and M-LSTM conseguiram os melhores resultados para experimentos com todos os atributos e aqueles utilizando remoção de atributos. Utilizar ensemble melhorou os resultados de alguns grupos de algoritmos e representações de atributos. Adicionalmente, experimentos de remoção de atributos ajudaram a identificar a contribuição de cada atributo nos resultados de ensembles, melhorando os resultados em alguns casos. Em geral, algoritmos de Deep Learning conseguiram os melhores resultados, seguidos por algoritmos Clássicos e de Transfer Learning.

A study on offensive video detection

Registros relacionados