ETL for data science?: A case study

Detalhes bibliográficos
Autor(a) principal: Oliveira, Nicole Furtado
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: http://hdl.handle.net/10071/23699
Resumo: Big data has driven data science development and research over the last years. However, there is a problem - most of the data science projects don't make it to production. This can happen because many data scientists don’t use a reference data science methodology. Another aggravating element is data itself, its quality and processing. The problem can be mitigated through research, progress and case studies documentation about the topic, fostering knowledge dissemination and reuse. Namely, data mining can benefit from other mature fields’ knowledge that explores similar matters, like data warehousing. To address the problem, this dissertation performs a case study about the project “IA-SI - Artificial Intelligence in Incentives Management”, which aims to improve the management of European grant funds through data mining. The key contributions of this study, to the academia and to the project’s development and success are: (1) A combined process model of the most used data mining process models and their tasks, extended with the ETL’s subsystems and other selected data warehousing best practices. (2) Application of this combined process model to the project and all its documentation. (3) Contribution to the project’s prototype implementation, regarding the data understanding and data preparation tasks. This study concludes that CRISP-DM is still a reference, as it includes all the other data mining process models’ tasks and detailed descriptions, and that its combination with the data warehousing best practices is useful to the project IA-SI and potentially to other data mining projects.
id RCAP_1f1876a8d72cf955574594c4408452c6
oai_identifier_str oai:repositorio.iscte-iul.pt:10071/23699
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling ETL for data science?: A case studyData mining --Business understandingData understandingData preparationData extractionData transformationData cleaningData normalizationPipelineETLData warehouseProcess modelsMethodologiesCRISP-DMKDDPythonGrant funds managementGrant funds for the private sectorEuropean structural and investment fundsMachine learningArtificial intelligenceData scienceCase studyCompreensão do negócioCompreensão de dadosPreparação de dadosExtração de dadosTransformação de dadosLimpeza de dadosNormalização de dadosModelos de processoMetodologiaGestão de fundos de investimentoFundos de investimento para o setor privadoFundos estruturais e de investimento europeusInteligência artificialCiência de dadosCaso de estudoBig data has driven data science development and research over the last years. However, there is a problem - most of the data science projects don't make it to production. This can happen because many data scientists don’t use a reference data science methodology. Another aggravating element is data itself, its quality and processing. The problem can be mitigated through research, progress and case studies documentation about the topic, fostering knowledge dissemination and reuse. Namely, data mining can benefit from other mature fields’ knowledge that explores similar matters, like data warehousing. To address the problem, this dissertation performs a case study about the project “IA-SI - Artificial Intelligence in Incentives Management”, which aims to improve the management of European grant funds through data mining. The key contributions of this study, to the academia and to the project’s development and success are: (1) A combined process model of the most used data mining process models and their tasks, extended with the ETL’s subsystems and other selected data warehousing best practices. (2) Application of this combined process model to the project and all its documentation. (3) Contribution to the project’s prototype implementation, regarding the data understanding and data preparation tasks. This study concludes that CRISP-DM is still a reference, as it includes all the other data mining process models’ tasks and detailed descriptions, and that its combination with the data warehousing best practices is useful to the project IA-SI and potentially to other data mining projects.A big data tem impulsionado o desenvolvimento e a pesquisa da ciência de dados nos últimos anos. No entanto, há um problema - a maioria dos projetos de ciência de dados não chega à produção. Isto pode acontecer porque muitos deles não usam uma metodologia de ciência de dados de referência. Outro elemento agravador são os próprios dados, a sua qualidade e o seu processamento. O problema pode ser mitigado através da documentação de estudos de caso, pesquisas e desenvolvimento da área, nomeadamente o reaproveitamento de conhecimento de outros campos maduros que exploram questões semelhantes, como data warehousing. Para resolver o problema, esta dissertação realiza um estudo de caso sobre o projeto “IA-SI - Inteligência Artificial na Gestão de Incentivos”, que visa melhorar a gestão dos fundos europeus de investimento através de data mining. As principais contribuições deste estudo, para a academia e para o desenvolvimento e sucesso do projeto são: (1) Um modelo de processo combinado dos modelos de processo de data mining mais usados e as suas tarefas, ampliado com os subsistemas de ETL e outras recomendadas práticas de data warehousing selecionadas. (2) Aplicação deste modelo de processo combinado ao projeto e toda a sua documentação. (3) Contribuição para a implementação do protótipo do projeto, relativamente a tarefas de compreensão e preparação de dados. Este estudo conclui que CRISP-DM ainda é uma referência, pois inclui todas as tarefas dos outros modelos de processos de data mining e descrições detalhadas e que a sua combinação com as melhores práticas de data warehousing é útil para o projeto IA-SI e potencialmente para outros projetos de data mining.2021-12-13T16:29:21Z2021-11-25T00:00:00Z2021-11-252021-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10071/23699TID:202806790engOliveira, Nicole Furtadoinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-07-07T03:19:18Zoai:repositorio.iscte-iul.pt:10071/23699Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T18:20:44.583125Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv ETL for data science?: A case study
title ETL for data science?: A case study
spellingShingle ETL for data science?: A case study
Oliveira, Nicole Furtado
Data mining --
Business understanding
Data understanding
Data preparation
Data extraction
Data transformation
Data cleaning
Data normalization
Pipeline
ETL
Data warehouse
Process models
Methodologies
CRISP-DM
KDD
Python
Grant funds management
Grant funds for the private sector
European structural and investment funds
Machine learning
Artificial intelligence
Data science
Case study
Compreensão do negócio
Compreensão de dados
Preparação de dados
Extração de dados
Transformação de dados
Limpeza de dados
Normalização de dados
Modelos de processo
Metodologia
Gestão de fundos de investimento
Fundos de investimento para o setor privado
Fundos estruturais e de investimento europeus
Inteligência artificial
Ciência de dados
Caso de estudo
title_short ETL for data science?: A case study
title_full ETL for data science?: A case study
title_fullStr ETL for data science?: A case study
title_full_unstemmed ETL for data science?: A case study
title_sort ETL for data science?: A case study
author Oliveira, Nicole Furtado
author_facet Oliveira, Nicole Furtado
author_role author
dc.contributor.author.fl_str_mv Oliveira, Nicole Furtado
dc.subject.por.fl_str_mv Data mining --
Business understanding
Data understanding
Data preparation
Data extraction
Data transformation
Data cleaning
Data normalization
Pipeline
ETL
Data warehouse
Process models
Methodologies
CRISP-DM
KDD
Python
Grant funds management
Grant funds for the private sector
European structural and investment funds
Machine learning
Artificial intelligence
Data science
Case study
Compreensão do negócio
Compreensão de dados
Preparação de dados
Extração de dados
Transformação de dados
Limpeza de dados
Normalização de dados
Modelos de processo
Metodologia
Gestão de fundos de investimento
Fundos de investimento para o setor privado
Fundos estruturais e de investimento europeus
Inteligência artificial
Ciência de dados
Caso de estudo
topic Data mining --
Business understanding
Data understanding
Data preparation
Data extraction
Data transformation
Data cleaning
Data normalization
Pipeline
ETL
Data warehouse
Process models
Methodologies
CRISP-DM
KDD
Python
Grant funds management
Grant funds for the private sector
European structural and investment funds
Machine learning
Artificial intelligence
Data science
Case study
Compreensão do negócio
Compreensão de dados
Preparação de dados
Extração de dados
Transformação de dados
Limpeza de dados
Normalização de dados
Modelos de processo
Metodologia
Gestão de fundos de investimento
Fundos de investimento para o setor privado
Fundos estruturais e de investimento europeus
Inteligência artificial
Ciência de dados
Caso de estudo
description Big data has driven data science development and research over the last years. However, there is a problem - most of the data science projects don't make it to production. This can happen because many data scientists don’t use a reference data science methodology. Another aggravating element is data itself, its quality and processing. The problem can be mitigated through research, progress and case studies documentation about the topic, fostering knowledge dissemination and reuse. Namely, data mining can benefit from other mature fields’ knowledge that explores similar matters, like data warehousing. To address the problem, this dissertation performs a case study about the project “IA-SI - Artificial Intelligence in Incentives Management”, which aims to improve the management of European grant funds through data mining. The key contributions of this study, to the academia and to the project’s development and success are: (1) A combined process model of the most used data mining process models and their tasks, extended with the ETL’s subsystems and other selected data warehousing best practices. (2) Application of this combined process model to the project and all its documentation. (3) Contribution to the project’s prototype implementation, regarding the data understanding and data preparation tasks. This study concludes that CRISP-DM is still a reference, as it includes all the other data mining process models’ tasks and detailed descriptions, and that its combination with the data warehousing best practices is useful to the project IA-SI and potentially to other data mining projects.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-13T16:29:21Z
2021-11-25T00:00:00Z
2021-11-25
2021-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10071/23699
TID:202806790
url http://hdl.handle.net/10071/23699
identifier_str_mv TID:202806790
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833597346906112000