Energy efficiency aware job scheduling for scalable data processing tools
| Main Author: | |
|---|---|
| Publication Date: | 2023 |
| Format: | Master thesis |
| Language: | eng |
| Source: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| Download full: | https://hdl.handle.net/1822/92678 |
Summary: | Dissertação de mestrado em Informatics Engineering |
| id |
RCAP_015d81c6334089cc1cfd765d44ed364c |
|---|---|
| oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/92678 |
| network_acronym_str |
RCAP |
| network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository_id_str |
https://opendoar.ac.uk/repository/7160 |
| spelling |
Energy efficiency aware job scheduling for scalable data processing toolsSparkSchedulingEnergy EfficiencyAgendamentoEficiência energéticaEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Informatics EngineeringMassive data processing tools for distributed environments such as Spark or Dask allow programmers to process massive amounts of data in data centers. A large portion of the operation costs of these infrastructures corresponds to the energy consumption resulting in performing these operations. Current tools use simple algorithms for efficient scheduling of data processing jobs in distributed computing, relying on heuristics without considering the workload characteristics. Recent work explores efficient scheduling of data processing jobs in distributed computing, especially in heterogeneous environ ments, despite these infrastructures being typically homogeneous. This dissertation makes an analysis of job executions in Spark and proposes EASAHUM a new al gorithm for job scheduling in massive data processing tools with energy efficiency concerns using the conclusions drawn. The implementation and evaluation in a simulator using real and synthetic execution traces in Spark demonstrate that the algorithm can reduce energy consumption by up to 16% and reduce job execution time by up to 12.25% without significant impact on the scheduling time.As ferramentas de processamento de dados massivos em ambientes distribuídos como o Spark ou Dask permitem aos programadores processar grandes quantidades de dados em centros de dados. Uma grande fatia dos custos de operação destas infraestruturas corresponde ao consumo energético resultante de processar estes dados. As ferramentas atuais utilizam algoritmos simples para o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, recorrendo a heurísticas sem ter em conta as características da carga de trabalho. Trabalho recente explora o agendamento eficiente de trabalhos de processamento de dados em computação distribuída, especialmente em ambientes heterogéneos, sendo que estas infraestruturas são tipicamente homogéneas. Esta dissetação faz uma analise de execuções de trabalhos em Spark e propõem EASAHUM um novo algoritmo para o agendamento de trabalhos para ferramentas de processamento de dados massivos com preocupações de eficiência energética com as conclusões tiradas. A implementação num simulador e avaliação usando traces de execuções reais e sintéticas em Spark, demonstram que o algoritmo consegue reduzir o consumo energético em até 16%, além de conseguir reduzir o tempo de execução dos trabalhos em até 12.25%, sem grande impacto no tempo gasto no agendamento.This work is financed by National Funds through the Portuguese funding agency, FCT - Fundação para a Ciência e a Tecnologia, within project LA/P/0063/2020.Vilaça, Ricardo Manuel PereiraUniversidade do MinhoAzevedo, Renato André Araújo2023-12-152023-12-15T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/92678eng203613058info:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-08-03T01:27:06Zoai:repositorium.sdum.uminho.pt:1822/92678Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T18:46:43.831397Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
| dc.title.none.fl_str_mv |
Energy efficiency aware job scheduling for scalable data processing tools |
| title |
Energy efficiency aware job scheduling for scalable data processing tools |
| spellingShingle |
Energy efficiency aware job scheduling for scalable data processing tools Azevedo, Renato André Araújo Spark Scheduling Energy Efficiency Agendamento Eficiência energética Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
| title_short |
Energy efficiency aware job scheduling for scalable data processing tools |
| title_full |
Energy efficiency aware job scheduling for scalable data processing tools |
| title_fullStr |
Energy efficiency aware job scheduling for scalable data processing tools |
| title_full_unstemmed |
Energy efficiency aware job scheduling for scalable data processing tools |
| title_sort |
Energy efficiency aware job scheduling for scalable data processing tools |
| author |
Azevedo, Renato André Araújo |
| author_facet |
Azevedo, Renato André Araújo |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Vilaça, Ricardo Manuel Pereira Universidade do Minho |
| dc.contributor.author.fl_str_mv |
Azevedo, Renato André Araújo |
| dc.subject.por.fl_str_mv |
Spark Scheduling Energy Efficiency Agendamento Eficiência energética Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
| topic |
Spark Scheduling Energy Efficiency Agendamento Eficiência energética Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
| description |
Dissertação de mestrado em Informatics Engineering |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-12-15 2023-12-15T00:00:00Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/92678 |
| url |
https://hdl.handle.net/1822/92678 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
203613058 |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
| instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| instacron_str |
RCAAP |
| institution |
RCAAP |
| reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| repository.mail.fl_str_mv |
info@rcaap.pt |
| _version_ |
1833597658054262784 |