Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Grzeça, Marcos Augusto |
Orientador(a): |
Galante, Renata de Matos |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/252738
|
Resumo: |
O consumo excessivo de álcool é responsável por três milhões de mortes anualmente e continua crescendo em todo o mundo, tornando-se um importante problema de saúde pública. As redes sociais provêm informações para monitorar e entender os problemas de saúde pública, inclusive o abuso de álcool. As informações extraídas das redes sociais podem auxiliar os gestores públicos a reduzir o uso nocivo do álcool, porém é necessário investir em métodos para extrair e identificar automaticamente o consumo de álcool a partir das redes sociais. Este trabalho aborda a classificação automática de textos bêbados a partir do Twitter, que consiste na classificação de tweets em {bêbado, sóbrio} de acordo com o seu conteúdo. Métodos tradicionais de processamento de linguagem natural não apresentam bom desempenho na identificação de tweets bêbados (ou seja, postados sob a influência de álcool), pois os tweets são curtos, esparsos e escritos com vocabulário específico da Internet. Para superar esses desafios e classificar os tweets, são propostos dois métodos que exploram estratégias distintas de enriquecimento contextual: Drunk2Symbol e Drunk2Vec. Drunk2Symbol expande o vocabulário e fornece contexto aos tweets explorando o enriquecimento contextual externo (Web Semântica). Drunk2Symbol também extrai features que caracterizam o abuso de álcool. Por outro lado, Drunk2Vec utiliza a semântica distribucional para identificar palavras similares e para lidar com as idiossincrasias da linguagem empregada em tweets bêbados. Para equilibrar as melhorias dos dois métodos, foi utilizado um conjunto de classificadores, denominado Drunk2Ensemble. Este trabalho disponibiliza duas bases de dados públicas relacionadas ao consumo de álcool e uma análise exploratória que ilustra a riqueza e a aplicabilidade das informações extraídas a partir das redes sociais. Para avaliar o desempenho dos métodos, foi definido um protocolo experimental abrangente, envolvendo três classificadores e cinco bases de dados que abordam diferentes comportamentos relacionados ao consumo de álcool no Twitter. Os resultados demonstram alto desempenho, com a medida F1 superior a 88,8 pontos percentuais em todas as bases de dados, superando o baseline com melhorias estatisticamente significativas. Os métodos propostos podem identificar tweets bêbados e fornecer informações importantes que ajudam a monitorar e entender os fatores relacionados ao consumo excessivo de álcool. |