Mining large amount of short text data in your desktop

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Larissa Sayuri Futino Castro dos Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE ESTATÍSTICA
Programa de Pós-Graduação em Estatística
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/33568
Resumo: Problemas de classificação/categorização de texto tornam-se ainda mais desafiadores quando os documentos de interesse são curtos. Além da falta de contexto, texto advindos da web tem o agravante da espontaneidade, flexibilidade e informalidade. Esse trabalho propõe uma metodologia que viabilize a indução de classificadores de texto para bases de dados grandes por usuários com disponibilidade de computadores comuns e sem conhecimento avançado em computação paralela e/ou distribuída. A metodologia proposta divide-se em dois passos. No primeiro deles, como etapa inicial, procede-se com a partição do banco de dados em subconjuntos de dados menores. No segundo passo cada subconjunto induz um classificador específico a partir de uma técnica supervisionada de Aprendizado de Máquina. A indução de um classificador com a coleção completa é substituída por induções de classificadores com menos dados o que reduz o esforço computacional. Além disso, viabiliza-se também a indução de múltiplos classificadores em distintos cores do computador concomitantemente. Isso denota uma paralelização computacional simples, o que reduz o tempo de processamento para a execução da tarefa. A metodologia também permite o emprego de distintas formas de representação do texto (o uso do vocabulário observado, com diferentes formas de seleção de atributos, o uso de anotação, bigramas, etc). Também é possível o uso de diferentes técnicas de agrupamento e Aprendizado de Máquina. Tais técnicas podem ser especificadas de acordo com as preferências do usuário, contexto e dificuldades do problema ou infra-estrutura disponível. Experimentos com distintos tipo de técnicas de classificação são realizadas. Apresentam-se análises para um base de tweets coletados na região de São Paulo-SP, Brasil no tópico de crime. A eficiência da metodologia é comprovada com o seu emprego em uma base de dados de 1.600.000 tweets em inglês, no domínio de Análise de Sentimento.