Detecção de hate speech usando combinação de classificadores

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: SOUSA, Woshington Valdeci de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/38109
Resumo: A popularização da internet e o crescimento das mídias sociais, mudaram a perspectiva geral de socialização nos últimos anos, tornando-se um meio de comunicação em massa com pouco controle sobre o conteúdo disseminado em suas plataformas. Além disso, o anonimato e a mobilidade alçaram as mídias sociais, como um importante canal disseminador de discursos de ódio. Esse tipo de discurso tornou-se um problema de escala mundial, causando preocupações em diversos países e organizações. Apesar dos grandes investimentos de empresas como Facebook, Twitter e Youtube, as atividades de controle ainda consistem em moderação manual, tornando o processo inescalável. Um grande número de pesquisas em aprendizagem de máquina, focam na detecção de discursos de ódio em redes sociais, utilizando a classificação monolítica. No entanto, é importante destacar que essa abordagem clássica, geralmente tem sua eficiência limitada no fato que um único classificador é responsável pela generalização do problema. Os sistemas de múltiplos classificadores, buscam combinar um conjunto de classificadores com comportamentos de classificação distintos para superar os resultados individuais dos mesmos. No entanto, selecionar classificadores com comportamentos diversificados, é uma tarefa complexa. Este trabalho propõe uma abordagem de seleção de classificadores baseada em uma exploração visual 2D, criada a partir da redução de dimensionalidade da matriz de dissimilaridade entre todos os classificadores, que é gerada utilizando o coeficiente double-fault measure. Para avaliar o método, inicialmente, foi construído um conjunto com 8 algoritmos de aprendizagem distintos, treinados com 5 métodos extratores, perfazendo um total de 40 classificadores, que tiveram seus desempenhos avaliados pelas métricas acurácia e macro f1-score. Em seguida, foi aplicada a proposta deste trabalho, para selecionar um grupo de classificadores que apresentavam comportamentos complementares e outro com comportamento mais semelhante, para então avaliar o desempenho destes grupos com técnicas de combinação. Este método foi aplicado em três bases de dados, duas delas (TD e ZW) foram coletadas do Twitter e uma (TD+ZW) construída com a junção das outras duas. Nas três bases foram realizados procedimentos de classificação com múltiplas classes, em TD e TD+ZW o objetivo era identificar o padrão como hate, offensive e non-offensive e em ZW classificar os padrões em racism, sexism e none. O método proposto obteve os melhores resultados em duas das bases avaliadas quando comparado a resultados da literatura.