Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Cordeiro, Paulo Roberto da Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322
Resumo: Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.