PRISMA: a prefetching storage middleware for accelerating deep learning frameworks

Bibliographic Details
Main Author: Correia, Cláudia Sofia Mendonça de Sá
Publication Date: 2021
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/1822/80302
Summary: Dissertação mestrado integrado em Informatics Engineering
id RCAP_517ca1c2501d41d29b2877f8ee96dbf2
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/80302
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling PRISMA: a prefetching storage middleware for accelerating deep learning frameworksDeep LearningStorage SystemsI/OTensorFlowPyTorchPrefetchingParallel I/OAprendizagem ProfundaSistemas de ArmazenamentoE/SPré-buscaE/S ParalelaEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação mestrado integrado em Informatics EngineeringDeep Learning (DL) is a widely used technique often applied to many domains, from computer vision to natural language processing. To avoid overfitting, DL applications have to access large amounts of data, which affects the training performance. Although significant hardware advances have already been made, current storage systems cannot keep up with the needs required by DL techniques. Considering this, multiple storage solutions have already been developed to improve the Input/Output (I/O) performance of DL training. Nevertheless, they are either specific to certain DL frameworks or present drawbacks, such as loss of accuracy. Most DL frameworks also contain internal I/O optimizations, however they cannot be easily decoupled and applied to other frameworks. Furthermore, most of these optimizations have to be manually configured or comprise greedy provisioning algorithms that waste computational resources. To address these issues, we propose PRISMA, a novel storage middleware that employs data prefetching and parallel I/O to improve DL training performance. PRISMA provides an autotuning mechanism to automatically select the optimal configuration. This mechanism was designed to achieve a good trade-off between performance and resource usage. PRISMA is framework-agnostic, meaning that it can be applied to any DL framework, and does not impact the accuracy of the training model. In addition to PRISMA, we provide a thorough study and evaluation of the TensorFlow Dataset Application Programming Interface (API), demonstrating that local DL can benefit from I/O optimization. PRISMA was integrated and evaluated with two popular DL frameworks, namely Tensor Flow and PyTorch, proving that it is successful under different I/O workloads. Experimental results demonstrate that PRISMA is the most efficient solution for the majority of the scenar ios that were studied, while for the other scenarios exhibits similar performance to built-in optimizations of TensorFlow and PyTorch.Aprendizagem Profunda (AP) é uma área bastante abrangente que é atualmente utilizada em diversos domínios, como é o caso da visão por computador e do processamento de linguagem natural. A aplicação de técnicas de AP implica o acesso a grandes quantidades de dados, o que afeta o desempenho de treino. Embora já tenham sido alcançados avanços significativos em termos de hardware, os sistemas de armazenamento atuais não conseguem acompanhar os requisitos de desempenho que os mecanismos de AP impõem. Considerando isto, foram desenvolvidas várias soluções de armazenamento com o objetivo de melhorar o desempenho de Entrada/Saída (E/S) do treino de AP. No entanto, as soluções existentes possuem certas desvantagens, nomeadamente perda de precisão do modelo de treino e o facto de serem específicas a determinadas plataformas de AP. A maioria das plataformas de AP também possuem otimizações de E/S, contudo essas otimizações não podem ser facilmente desacopladas e aplicadas a outras plataformas. Para além disto, a maioria destas otimizações tem que ser configurada manualmente ou contém algoritmos de provisionamento gananciosos, que desperdiçam recursos computacionais. Para resolver os problemas anteriormente mencionados, esta dissertação propõe o PRISMA, um middleware de armazenamento que executa pré-busca de dados e paralelismo de E/S, de forma a melhorar o desempenho de treino de AP. O PRISMA providencia um mecanismo de configuração automática para determinar uma combinação de parâmetros ótima. Este mecanismo foi desenvolvido com o objetivo de obter um bom equilíbrio entre desempenho e utilização de recursos. O PRISMA é independente da plataforma de AP e não afeta a precisão do modelo de treino. Além do PRISMA, esta dissertação providencia um estudo e uma avaliação detalhados da Interface de Programação de Aplicações (API) Dataset do TensorFlow, provando que AP local pode beneficiar de otimizações de E/S. O PRISMA foi integrado e avaliado com duas plataformas de AP amplamente utilizadas, o TensorFlow e o PyTorch, demonstrando que este middleware tem sucesso sob diferentes cargas de trabalho de E/S. Os resultados experimentais demonstram que o PRISMA é a solução mais eficiente na maioria dos cenários estudados, e possui um desempenho semelhante às otimizações internas do TensorFlow e do PyTorch.Fundação para a Ciência e a Tecnologia (FCT) - project UIDB/50014/2020Paulo, João Tiago MedeirosSousa, AntónioUniversidade do MinhoCorreia, Cláudia Sofia Mendonça de Sá2021-03-052021-03-05T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80302eng203024435info:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-05-11T05:11:33Zoai:repositorium.sdum.uminho.pt:1822/80302Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T15:10:47.286089Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
title PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
spellingShingle PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
Correia, Cláudia Sofia Mendonça de Sá
Deep Learning
Storage Systems
I/O
TensorFlow
PyTorch
Prefetching
Parallel I/O
Aprendizagem Profunda
Sistemas de Armazenamento
E/S
Pré-busca
E/S Paralela
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
title_full PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
title_fullStr PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
title_full_unstemmed PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
title_sort PRISMA: a prefetching storage middleware for accelerating deep learning frameworks
author Correia, Cláudia Sofia Mendonça de Sá
author_facet Correia, Cláudia Sofia Mendonça de Sá
author_role author
dc.contributor.none.fl_str_mv Paulo, João Tiago Medeiros
Sousa, António
Universidade do Minho
dc.contributor.author.fl_str_mv Correia, Cláudia Sofia Mendonça de Sá
dc.subject.por.fl_str_mv Deep Learning
Storage Systems
I/O
TensorFlow
PyTorch
Prefetching
Parallel I/O
Aprendizagem Profunda
Sistemas de Armazenamento
E/S
Pré-busca
E/S Paralela
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Deep Learning
Storage Systems
I/O
TensorFlow
PyTorch
Prefetching
Parallel I/O
Aprendizagem Profunda
Sistemas de Armazenamento
E/S
Pré-busca
E/S Paralela
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação mestrado integrado em Informatics Engineering
publishDate 2021
dc.date.none.fl_str_mv 2021-03-05
2021-03-05T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/80302
url https://hdl.handle.net/1822/80302
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203024435
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833595149036290048