Exportação concluída — 

Detecção de posicionamento em tweets sobre Covid-19 no Brasil utilizando métodos de aprendizagem de máquina

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: OLIVEIRA, Rodrigo Ludermir de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/52699
Resumo: A onipresença da pandemia de Covid-19 durante os últimos dois anos acarretou na urgência de ações responsivas contra o avanço da contaminação do novo coronavírus e em estratégias de imunização da população, através de políticas de saúde pública e medidas sanitárias pre- ventivas por parte das autoridades responsáveis e também da sociedade civil. No Brasil, esse processo foi profundamente politizado, suscitando discussões polarizadas que inundaram as redes sociais com opiniões e posicionamentos acerca das medidas adotadas contra a Covid-19 e suas repercussões. Enquanto um paradigma emergente no campo de mineração de opiniões nas redes sociais, sistemas de detecção de posicionamento têm produzido resultados frutíferos, principalmente quando os objetos de classificação estão segmentados por um tópico alvo sobre o qual o posicionamento é realizado. Desse modo, esta dissertação investiga a utilização de métodos de aprendizagem de máquina no desenvolvimento de sistemas de detecção de posici- onamento em tweets - publicações na rede social Twitter - de usuários brasileiros comentando as medidas relacionadas à Covid-19, exercidas por eles próprios e pelo governo brasileiro em seus diferentes órgãos e níveis de atuação. O trabalho envolve três partes principais: (1) Cons- trução da base de dados, na qual houve o levantamento de mais de 6 milhões de tweets e retweets em português que mencionam palavras relacionadas à Covid-19 entre Janeiro de 2020 e Outubro de 2021, das quais mais de 350 mil tweets foram rotulados (pseudo-labels), através de métodos de anotação fraca (weak supervision), em “favoráveis” ou “contrários” às medidas do governo federal frente à pandemia. (2) Limpeza, análise exploratória e segmentação da base rotulada por tópicos mais relevantes e frequentes. (3) Avaliação de modelos de Aprendizagem de Máquina tradicionais e de aprendizagem profunda - sobretudo Transformers, na detecção de posicionamentos. Utilizando o modelo de linguagem de domínio geral em português-brasileiro BERTimbau, que segue a arquitetura base do BERT, foram realizados experimentos com: (1) adaptação de domínio, usando os dados não rotulados; (2) uso de dados relacionais dos usuários (rede de interações - retweets, mentions e replies); (3) Aprendizado via Multi-tasking, realizando o ajuste-fino em todos os tópicos ao mesmo tempo. Os experimentos realizados demonstraram que os modelos inicializados usando BERTimbau e treinados combinando as três abordagens citadas acima se sobressaem sobre os demais em seu desempenho diante da variedade de tópicos relacionados à Covid-19 no contexto brasileiro.