Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2021 |
| Tipo de documento: | Dissertação |
| Idioma: | eng |
| Título da fonte: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| Texto Completo: | http://hdl.handle.net/10451/51973 |
Resumo: | Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021 |
| id |
RCAP_de819dc894a365dfbc5d2f541c6fef8a |
|---|---|
| oai_identifier_str |
oai:repositorio.ulisboa.pt:10451/51973 |
| network_acronym_str |
RCAP |
| network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository_id_str |
https://opendoar.ac.uk/repository/7160 |
| spelling |
Improving Machine Learning Pipeline Creation using Visual Programming and Static AnalysisProgramação VisualAprendizagem AutomáticaPipelineVerificação de TiposCompiladorTeses de mestrado - 2021Departamento de InformáticaTese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021ML pipelines are composed of several steps that load data, clean it, process it, apply learning algorithms and produce either reports or deploy inference systems into production. In real-world scenarios, pipelines can take days, weeks, or months to train with large quantities of data. Unfortunately, current tools to design and orchestrate ML pipelines are oblivious to the semantics of each step, allowing developers to easily introduce errors when connecting two components that might not work together, either syntactically or semantically. Data scientists and engineers often find these bugs during or after the lengthy execution, which decreases their productivity. We propose a Visual Programming Language (VPL) enriched with semantic constraints regarding the behavior of each component and a verification methodology that verifies entire pipelines to detect common ML bugs that existing visual and textual programming languages do not. We evaluate this methodology on a set of six bugs taken from a data science company focused on preventing financial fraud on big data. We were able detect these data engineering and data balancing bugs, as well as detect unnecessary computation in the pipelines.Fonseca, Alcides Miguel Cachulo AguiarRepositório da Universidade de LisboaDavid, João Pedro Vieira2022-03-25T13:48:33Z202120212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/51973TID:202934071enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-17T14:42:56Zoai:repositorio.ulisboa.pt:10451/51973Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T03:22:54.329013Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
| dc.title.none.fl_str_mv |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
| title |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
| spellingShingle |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis David, João Pedro Vieira Programação Visual Aprendizagem Automática Pipeline Verificação de Tipos Compilador Teses de mestrado - 2021 Departamento de Informática |
| title_short |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
| title_full |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
| title_fullStr |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
| title_full_unstemmed |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
| title_sort |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
| author |
David, João Pedro Vieira |
| author_facet |
David, João Pedro Vieira |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Fonseca, Alcides Miguel Cachulo Aguiar Repositório da Universidade de Lisboa |
| dc.contributor.author.fl_str_mv |
David, João Pedro Vieira |
| dc.subject.por.fl_str_mv |
Programação Visual Aprendizagem Automática Pipeline Verificação de Tipos Compilador Teses de mestrado - 2021 Departamento de Informática |
| topic |
Programação Visual Aprendizagem Automática Pipeline Verificação de Tipos Compilador Teses de mestrado - 2021 Departamento de Informática |
| description |
Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021 |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021 2021 2021-01-01T00:00:00Z 2022-03-25T13:48:33Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/51973 TID:202934071 |
| url |
http://hdl.handle.net/10451/51973 |
| identifier_str_mv |
TID:202934071 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
| instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| instacron_str |
RCAAP |
| institution |
RCAAP |
| reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| repository.mail.fl_str_mv |
info@rcaap.pt |
| _version_ |
1833601680938106880 |