Análise de fatores relevantes no desempenho de plataformas para processamento de Big Data : uma abordagem baseada em projeto de experimentos
Ano de defesa: | 2020 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/39207 |
Resumo: | Uma série de fenômenos tecnológicos, sociais e de mercado originaram um paradigma comumente referenciado pelo termo Big Data: grandes conjuntos de dados, criados a taxas muito altas, em formatos diversos e adquiridos de variadas fontes. Tais circunstâncias demandam tecnologias escaláveis, redundantes e tolerantes a falhas; normalmente obtidas por modelos de computação nas nuvens. O desempenho das tarefas em termos de tempo e custo depende de fatores como hardware, volume de dados e tipo de algoritmo. Escolher a configuração mais adequada é um problema de notória dificuldade devido ao número de soluções possíveis e inviabilidade de investigação de todos os cenários. Esta Tese se concentra na análise experimental de algoritmos de aprendizagem de máquina em plataformas de processamento para Big Data e se justifica ao auxiliar o adequado aprovisionamento de recursos em nuvem. É proposta uma metodologia baseada nas técnicas 2k fatorial, fundamentadas na abordagem de Projeto de Experimentos (DoE — Design of Experiments) para avaliação da influência de fatores sobre tempo e custo, a ordenação daqueles mais relevantes e a derivação de modelos preditores. O desempenho de 288 clusters reais foi avaliado através de seis projetos com 48 unidades experimentais, cada uma composta por arranjos de 8 e 28 máquinas, e cada máquina variando entre 12 e 32 núcleos, 1, 7 e 8 discos, 3x e 6x RAM por núcleo, totalizando um poder computacional de até 896 núcleos e 5.25 TB de RAM. Os experimentos foram conduzidos sobre duas bases de dados. Primeiramente foram construídos 1.06 TB de dados sintéticos estruturados em 3.65 milhões de instâncias e 40 mil dimensões para classificação através de Florestas Aleatórias. Posteriormente, foi construído um Corpus com 249 GB de dados não estruturados de 16 milhões de páginas web de sete países de língua portuguesa. A tarefa computacional consistiu na classificação de texto para distinguir o português brasileiro de outras variações. Foram examinados os algoritmos Regressão Logística, Florestas Aleatórias, Máquinas de Vetores de Suporte, Naïve Bayes e Perceptron de Múltiplas Camadas. Análises de regressão foram aplicadas para quantificar a influência dos fatores. Os resultados incluem modelos lineares para estimar tempo e custo e uma ferramenta de análise visual baseada em coordenadas paralelas. Por fim, o trabalho evidencia a relevância dos métodos de DoE como abordagem para estimar desempenho em ambientes de processamento para Big Data. |