Flexible tracing and analysis of applications’ I/O behavior

Bibliographic Details
Main Author: Esteves, Tânia Conceição Araújo
Publication Date: 2024
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/1822/91357
Summary: Tese de doutoramento em Informática
id RCAP_0f7787c555db45d91fbc568743d82f7e
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/91357
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Flexible tracing and analysis of applications’ I/O behaviorRastreio e análise flexíveis do comportamento de E/S de aplicaçõesDiagnóstico de E/SRastreioAnáliseVisualizaçãoAplicações centradas em dadosSistemas de armazenamentoI/O diagnosisTracingAnalysisVisualizationData-centric applicationsStorage systemsCiências Naturais::Ciências da Computação e da InformaçãoTese de doutoramento em InformáticaA correção, confiabilidade e desempenho de aplicações centradas em dados e de sistemas distribuídos (por exemplo, sistemas de ficheiros, bases de dados, plataformas de análise de dados e de aprendizagem de máquina) são influenciados pela forma como estes acedem, trocam e persistem dados. Portanto, compreender o comportamento de Entrada/Saída (E/S) destas soluções é fundamental para as explorar, encontrar possíveis problemas e otimizar. Para tal, existem ferramentas de diagnóstico que dão suporte à coleção, análise e visualização de padrões de E/S (por exemplo, chamadas de sistema, funções de kernel). Nesta dissertação, argumentamos que estas ferramentas podem ser melhoradas para alcançar soluções de diagnóstico integradas e automatizadas que permitam capturar informações detalhadas sobre pedidos de E/S, suportar análises múltiplas e automatizadas dos dados colecionados, e fornecer representações visuais que facilitam a interpretação de padrões de comportamento de E/S. Estes objetivos são alcançados através de três novas plataformas de diagnóstico. Em primeiro lugar apresentamos o CaT, uma solução orientada ao conteúdo que permite uma análise mais abrangente de sistemas distribuídos, revelando como os dados fluem pelos distintos componentes até que sejam persistidos. Através de dois casos de estudo reais mostramos que esta informação é fundamental para identificar padrões de corrupção e adulteração de dados em soluções distribuídas. Em seguida propomos o DIO, uma solução genérica para o diagnóstico de aplicações centradas em dados que oferece funcionalidades de coleção, análise e visualização detalhadas, flexíveis, e personalizáveis. Através de uma avaliação experimental, com quatro aplicações utilizadas pela indústria, mostramos que a nossa solução facilita a análise da origem de problemas conhecidos, e permite observar e validar padrões de E/S ineficientes (e anteriormente desconhecidos). Por fim, apresentamos o CRIBA, uma plataforma que estende o DIO para fornecer uma solução especializada e automatizada que permite caracterizar o comportamento de E/S de ransomware criptográfico. O nosso estudo com cinco famílias de ransomware para Linux mostra como o CRIBA permite a análise e observação dos seus comportamentos intrínsecos e complexos. As contribuições anteriores facilitam e melhoram o diagnóstico de aplicações e de sistemas de armazenamento. Acreditamos que soluções de diagnóstico detalhadas, flexíveis e personalizáveis, como as propostas neste trabalho, são fundamentais para a construção de sistemas mais robustos e eficientes.The correctness, dependability and performance of data-centric applications and distributed systems (e.g., file systems, databases, analytical engines, machine learning frameworks) are highly influenced by the way these access, exchange and persist data. Therefore, understanding the Input/Output (I/O) behavior of such solutions is key for efficiently exploring, debugging and optimizing them. This endeavor is possible through diagnosis tools that provide support for the collection, analysis and visualization of information (e.g., logs, system calls, kernel functions) from targeted applications and storage systems. In this thesis, we argue that these tools can be further enhanced to achieve fully automated and integrated diagnosis pipelines that allow capturing comprehensive information about I/O requests, supporting multipurpose and automated analysis of collected data, and providing informative and summarized visual representations that ease the interpretation of I/O behavior patterns for users. We accomplish these goals by proposing three novel diagnosis frameworks. First, we introduce CaT, a content-aware solution that enables a more comprehensive analysis of distributed systems by revealing how data requests flow across distinct components until these are persisted. We show that this information is key for identifying data corruption and adulteration patterns in complex distributed solutions. Then, we propose DIO, a general-purpose solution for diagnosing data-centric applications that offers flexible, comprehensive and customizable tracing, analysis and visualization in near real-time. Through an experimental evaluation including four production-level applications, we show that our solution eases the root cause analysis of known issues and allows observing and validating inefficient (and previously unknown) I/O patterns. Finally, we present CRIBA, a framework that extends DIO to provide a specialized and automated pipeline for characterizing the I/O behavior of cryptographic ransomware. Our study, including five Linux ransomware families, shows that CRIBA enables the analysis and observation of intrinsic and complex I/O behavior from malicious samples. The previous contributions ease and improve the process of diagnosing applications and storage systems for users. We believe that comprehensive, flexible and customizable diagnosis pipelines, such as the ones proposed in this work, are key for building systems that are more robust and efficient.A Fundação para a Ciência e Tecnologia (FCT) apoiou este trabalho através da bolsa de doutoramento DFA/BD/5881/2020.Paulo, João Tiago MedeirosOliveira, Rui Carlos Mendes deUniversidade do MinhoEsteves, Tânia Conceição Araújo2024-04-082024-04-08T00:00:00Zdoctoral thesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://hdl.handle.net/1822/91357eng101641303info:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-05-18T02:00:16Zoai:repositorium.sdum.uminho.pt:1822/91357Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T16:36:43.880145Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Flexible tracing and analysis of applications’ I/O behavior
Rastreio e análise flexíveis do comportamento de E/S de aplicações
title Flexible tracing and analysis of applications’ I/O behavior
spellingShingle Flexible tracing and analysis of applications’ I/O behavior
Esteves, Tânia Conceição Araújo
Diagnóstico de E/S
Rastreio
Análise
Visualização
Aplicações centradas em dados
Sistemas de armazenamento
I/O diagnosis
Tracing
Analysis
Visualization
Data-centric applications
Storage systems
Ciências Naturais::Ciências da Computação e da Informação
title_short Flexible tracing and analysis of applications’ I/O behavior
title_full Flexible tracing and analysis of applications’ I/O behavior
title_fullStr Flexible tracing and analysis of applications’ I/O behavior
title_full_unstemmed Flexible tracing and analysis of applications’ I/O behavior
title_sort Flexible tracing and analysis of applications’ I/O behavior
author Esteves, Tânia Conceição Araújo
author_facet Esteves, Tânia Conceição Araújo
author_role author
dc.contributor.none.fl_str_mv Paulo, João Tiago Medeiros
Oliveira, Rui Carlos Mendes de
Universidade do Minho
dc.contributor.author.fl_str_mv Esteves, Tânia Conceição Araújo
dc.subject.por.fl_str_mv Diagnóstico de E/S
Rastreio
Análise
Visualização
Aplicações centradas em dados
Sistemas de armazenamento
I/O diagnosis
Tracing
Analysis
Visualization
Data-centric applications
Storage systems
Ciências Naturais::Ciências da Computação e da Informação
topic Diagnóstico de E/S
Rastreio
Análise
Visualização
Aplicações centradas em dados
Sistemas de armazenamento
I/O diagnosis
Tracing
Analysis
Visualization
Data-centric applications
Storage systems
Ciências Naturais::Ciências da Computação e da Informação
description Tese de doutoramento em Informática
publishDate 2024
dc.date.none.fl_str_mv 2024-04-08
2024-04-08T00:00:00Z
dc.type.driver.fl_str_mv doctoral thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/91357
url https://hdl.handle.net/1822/91357
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 101641303
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833596055293263872