Energy efficiency aware job scheduling for scalable data processing tools

Bibliographic Details
Main Author: Azevedo, Renato André Araújo
Publication Date: 2023
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/1822/92678
Summary: Dissertação de mestrado em Informatics Engineering
id RCAP_015d81c6334089cc1cfd765d44ed364c
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/92678
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Energy efficiency aware job scheduling for scalable data processing toolsSparkSchedulingEnergy EfficiencyAgendamentoEficiência energéticaEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Informatics EngineeringMassive data processing tools for distributed environments such as Spark or Dask allow programmers to process massive amounts of data in data centers. A large portion of the operation costs of these infrastructures corresponds to the energy consumption resulting in performing these operations. Current tools use simple algorithms for efficient scheduling of data processing jobs in distributed computing, relying on heuristics without considering the workload characteristics. Recent work explores efficient scheduling of data processing jobs in distributed computing, especially in heterogeneous environ ments, despite these infrastructures being typically homogeneous. This dissertation makes an analysis of job executions in Spark and proposes EASAHUM a new al gorithm for job scheduling in massive data processing tools with energy efficiency concerns using the conclusions drawn. The implementation and evaluation in a simulator using real and synthetic execution traces in Spark demonstrate that the algorithm can reduce energy consumption by up to 16% and reduce job execution time by up to 12.25% without significant impact on the scheduling time.As ferramentas de processamento de dados massivos em ambientes distribuídos como o Spark ou Dask permitem aos programadores processar grandes quantidades de dados em centros de dados. Uma grande fatia dos custos de operação destas infraestruturas corresponde ao consumo energético resultante de processar estes dados. As ferramentas atuais utilizam algoritmos simples para o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, recorrendo a heurísticas sem ter em conta as características da carga de trabalho. Trabalho recente explora o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, especialmente em ambientes heterogéneos, sendo que estas infraestruturas são tipicamente homogéneas. Esta dissetação faz uma analise de execuções de trabalhos em Spark e propõem EASAHUM um novo algoritmo para o agendamento de trabalhos para ferramentas de processamento de dados massivos com preocupações de eficiência energética com as conclusões tiradas. A implementação num simulador e avaliação usando traces de execuções reais e sintéticas em Spark, demonstram que o algoritmo consegue reduzir o consumo energético em até 16%, além de conseguir reduzir o tempo de execução dos trabalhos em até 12.25%, sem grande impacto no tempo gasto no agendamento.This work is financed by National Funds through the Portuguese funding agency, FCT - Fundação para a Ciência e a Tecnologia, within project LA/P/0063/2020.Vilaça, Ricardo Manuel PereiraUniversidade do MinhoAzevedo, Renato André Araújo2023-12-152023-12-15T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/92678eng203613058info:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-08-03T01:27:06Zoai:repositorium.sdum.uminho.pt:1822/92678Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T18:46:43.831397Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Energy efficiency aware job scheduling for scalable data processing tools
title Energy efficiency aware job scheduling for scalable data processing tools
spellingShingle Energy efficiency aware job scheduling for scalable data processing tools
Azevedo, Renato André Araújo
Spark
Scheduling
Energy Efficiency
Agendamento
Eficiência energética
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Energy efficiency aware job scheduling for scalable data processing tools
title_full Energy efficiency aware job scheduling for scalable data processing tools
title_fullStr Energy efficiency aware job scheduling for scalable data processing tools
title_full_unstemmed Energy efficiency aware job scheduling for scalable data processing tools
title_sort Energy efficiency aware job scheduling for scalable data processing tools
author Azevedo, Renato André Araújo
author_facet Azevedo, Renato André Araújo
author_role author
dc.contributor.none.fl_str_mv Vilaça, Ricardo Manuel Pereira
Universidade do Minho
dc.contributor.author.fl_str_mv Azevedo, Renato André Araújo
dc.subject.por.fl_str_mv Spark
Scheduling
Energy Efficiency
Agendamento
Eficiência energética
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Spark
Scheduling
Energy Efficiency
Agendamento
Eficiência energética
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Informatics Engineering
publishDate 2023
dc.date.none.fl_str_mv 2023-12-15
2023-12-15T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/92678
url https://hdl.handle.net/1822/92678
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203613058
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833597658054262784