Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
Albuquerque, Denis José Sousa de |
Orientador(a): |
Costa, Umberto Souza da |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufrn.br/jspui/handle/123456789/28122
|
Resumo: |
Este trabalho de pesquisa busca identificar e classificar as principais dificuldades e questões de interesse dos desenvolvedores de aplicações para o processamento de Big Data utilizando o framework Apache Spark. Nesse sentido, utilizamos o algoritmo Latent Dirichlet Allocation para realizar a modelagem probabilística de tópicos em informações extraídas do Stack Overflow, uma vez que não é viável a inspeção manual de todo o conjunto de dados. A partir do conhecimento obtido pelo estudo abrangente de trabalhos relacionados, estabelecemos e aplicamos uma metodologia baseada nas práticas usualmente empregadas. Construímos aplicações Spark para execução automatizada das tarefas, tais como a seleção e preparação dos dados, o agrupamento de tópicos – aplicação do algoritmo de modelagem probabilista para várias configurações – e a computação de métricas. Análises sobre os resultados obtidos foram conduzidas por um grupo composto por 5 pesquisadores: dois professores doutores, um aluno doutorando e dois alunos mestrandos. A partir da análise semântica dos rótulos atribuídos para cada um dos tópicos identificados, uma taxonomia de interesses e dificuldades foi construída. Por fim, estabelecemos um ranqueamento dos temas mais importantes de acordo com as várias métricas calculadas e comparamos os métodos e resultados de nosso estudo com os apresentados em outro trabalho. |