Configurando o Hadoop através de um processo empírico flexível.

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: SARMENTO NETO, Geraldo Abrantes.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/11347
Resumo: A geração de grandes volumes de dados, também conhecidos com Big Data, vem se tornando muito comum em ambientes acadêmicos e corporativos. Nesse contexto, e essencial que as aplicações que processam Big Data explorem da melhor forma possível as infraestruturas distribuídas de alto desempenho (como clusters), possivelmente presentes nesses ambientes, através da implantação dessas aplicações sobre sistemas de computação intensiva de dados tais como o popular Hadoop. No que diz respeito a configuração desta plataforma, observa-se uma quantidade considerável de parâmetros que devem ser ajustados e os quais os usuários normalmente não tem noção de como faze-los, resultando em um Hadoop mal configurado e com um desempenho aquém do seu real potencial. Este trabalho propõe um processo para auxiliar a configuração eficiente do Hadoop através do uso de técnicas empíricas que utilizam subespaços de parâmetros dessa plataforma, e da aplicação de analises estatísticas para verificar a relevância dos mesmos, extraindo os valores otimizados em função do subespaço de parâmetros considerado. Visando instanciar o processo, foi realizado um estudo de caso de forma a obter uma configuração com impacto positivo sobre o tempo de resposta de uma aplica^ao representativa para esse contexto. A validação foi feita através de uma compara§ao do processo proposto com soluções existentes na qual foi possível observar que o processo teve uma significativa vantagem, levando em consideração o mesmo ambiente e workload utilizados na etapa de instanciação. Apesar do tempo médio de conclusão do processo ter sido maior que o das outras soluções, foram levantados cenários em que o uso do processo proposto e mais vantajoso (e possivelmente mais viável) que o uso das outras soluções. Isso ocorre devido a sua flexibilidade, uma vez que ele não apresenta restrições quanto ao subespaço de parâmetros selecionado e métricas possíveis de serem analisadas.