Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis

Detalhes bibliográficos
Autor(a) principal: David, João Pedro Vieira
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: http://hdl.handle.net/10451/51973
Resumo: Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021
id RCAP_de819dc894a365dfbc5d2f541c6fef8a
oai_identifier_str oai:repositorio.ulisboa.pt:10451/51973
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Improving Machine Learning Pipeline Creation using Visual Programming and Static AnalysisProgramação VisualAprendizagem AutomáticaPipelineVerificação de TiposCompiladorTeses de mestrado - 2021Departamento de InformáticaTese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021ML pipelines are composed of several steps that load data, clean it, process it, apply learning algorithms and produce either reports or deploy inference systems into production. In real-world scenarios, pipelines can take days, weeks, or months to train with large quantities of data. Unfortunately, current tools to design and orchestrate ML pipelines are oblivious to the semantics of each step, allowing developers to easily introduce errors when connecting two components that might not work together, either syntactically or semantically. Data scientists and engineers often find these bugs during or after the lengthy execution, which decreases their productivity. We propose a Visual Programming Language (VPL) enriched with semantic constraints regarding the behavior of each component and a verification methodology that verifies entire pipelines to detect common ML bugs that existing visual and textual programming languages do not. We evaluate this methodology on a set of six bugs taken from a data science company focused on preventing financial fraud on big data. We were able detect these data engineering and data balancing bugs, as well as detect unnecessary computation in the pipelines.Fonseca, Alcides Miguel Cachulo AguiarRepositório da Universidade de LisboaDavid, João Pedro Vieira2022-03-25T13:48:33Z202120212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/51973TID:202934071enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-17T14:42:56Zoai:repositorio.ulisboa.pt:10451/51973Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T03:22:54.329013Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
spellingShingle Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
David, João Pedro Vieira
Programação Visual
Aprendizagem Automática
Pipeline
Verificação de Tipos
Compilador
Teses de mestrado - 2021
Departamento de Informática
title_short Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_full Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_fullStr Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_full_unstemmed Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_sort Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
author David, João Pedro Vieira
author_facet David, João Pedro Vieira
author_role author
dc.contributor.none.fl_str_mv Fonseca, Alcides Miguel Cachulo Aguiar
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv David, João Pedro Vieira
dc.subject.por.fl_str_mv Programação Visual
Aprendizagem Automática
Pipeline
Verificação de Tipos
Compilador
Teses de mestrado - 2021
Departamento de Informática
topic Programação Visual
Aprendizagem Automática
Pipeline
Verificação de Tipos
Compilador
Teses de mestrado - 2021
Departamento de Informática
description Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021
publishDate 2021
dc.date.none.fl_str_mv 2021
2021
2021-01-01T00:00:00Z
2022-03-25T13:48:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/51973
TID:202934071
url http://hdl.handle.net/10451/51973
identifier_str_mv TID:202934071
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833601680938106880