Acelerando a construção de tabelas hash para dados textuais com aplicações

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Barros, Chayner Cordeiro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Goiás
Instituto de Informática - INF (RG)
Brasil
UFG
Programa de Pós-graduação em Ciência da Computação (INF)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Hpc
Link de acesso: http://repositorio.bc.ufg.br/tede/handle/tede/11006
Resumo: A mineração de texto (text mining) se caracteriza pela extração de informações a partir de dados textuais, nos mais diversos formatos, objetivando a produção de conhecimento, a classificação, clusterização, tradução desta informação entre outras tarefas. Para que a mineração de textos seja eficiente alguns procedimentos são realizados sobre os dados para garantir que eles contenham apenas conteúdo relevante à análise que será realizada, e que estejam estruturados num formato mais fácil de ser manipulado computacionalmente. Diversas tarefas de pré-processamento devem ser realizadas sobre esses dados, para alcançar a qualidade e a representação desejada. Neste sentido, o presente trabalho propõe uma implementação de tabela hash capaz de explorar o alto paralelismo disponível nas GPUs de forma eficiente, como forma de aumentar o desempenho das tarefas de pré- processamento de texto. Entretanto, este trabalho não apenas apresenta algoritmos mais eficientes, mas também demonstra a viabilidade de seu uso em aplicações como a geração da matriz de coocorrência e da representação do texto utilizando-se embeddings.