A pattern-based approach for ETL systems modelling and validation

Detalhes bibliográficos
Autor(a) principal: Oliveira, Bruno Moisés Teixeira
Data de Publicação: 2018
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: http://hdl.handle.net/1822/56801
Resumo: Tese de Doutoramento em Informática
id RCAP_ebbc4a6cdf99be2a9b0c7bd39b2f1f18
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/56801
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling A pattern-based approach for ETL systems modelling and validationUma abordagem orientada a padrões para a modelação e validação de sistemas de ETLData WarehouseExtract-Transform-LoadETL conceptual and logical modellingETL patternsBusiness Process Model and Language (BPMN)pattern configuration and instantiationdomain-specific language and physical model’s generationArmazéns de dadosModelação conceptual e lógica de um processo de ETLpadrões para ETLBusiness Process Model and Language (BPMN)linguagem de domínio para configuração e instanciação de padrões e geração de modelos físicosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaTese de Doutoramento em InformáticaUsually, a data warehousing system stores data in an integrated and consistent way, making it an ideal data repository to support decision-making processes. However, to keep this repository properly updated it is necessary to access to a variety of information sources, transform the data gathered according to the established decision-making requirements and load that data into the Data Warehouse System data repository – the data warehouse. All these tasks are done by highly sophisticated programs that together integrates what we use to define as the ETL system. The ETL (Extract, Transform, Load) system is responsible to perform all those tasks, being considered a very time-consuming, error-prone and complex process, involving several participants from different knowledge domains. They are one of the most important components of a data warehousing system, strongly influenced by the complexity of business requirements, their changing, and evolution. These aspects influence not only the structure of a data warehouse itself but also the information sources schemas involved with, since they must handle data with complex data requirements and transformation routines. Moreover, ETL systems are data-oriented processes composed of dozens of granular tasks arranged based on specific languages and architectures, which results in technical and complex terms, difficult to understand and maintain. Despite the efforts done by several researchers for the modelling and implementing them, a solid and simpler approach providing the necessary bridges to create the conceptual and logical models, and validate them before its final implementation is still lacking. However, a specific subset of these tasks can be grouped on a collection together with their relationships to form abstract constructs. Thus, to facilitate the planning and ETL implementation, this work aims to present a set of constructs that represent meta-models (patterns) specially designed to map standard ETL procedures, providing the necessary bridges to represent them at the conceptual level and provide its mapping to execution primitives. Basically, these (ETL) patterns are comprised of a set of abstract components that can be configured to enable its instantiation for specific application scenarios. With them, generic models can be built, simplifying process views and providing methods for carrying out the acquired expertise to new applications based on well-proven practices that can be used to describe general solutions based on specific skeletons configured and instantiated according to a set of specific integration requirements. The ETL pattern-based approach presented uses BPMN (Business Process Model and Notation) for modelling conceptual ETL workflows, mapping them to real execution primitives using a domain-specific language that allows for the generation of instances that can be executed in an ETL commercial tool. This work demonstrates the feasibility and effectiveness of an ETL pattern-based approach, analysing a test scenario for data integration based on the pattern framework proposed.Os sistemas de Data Warehousing suportam o armazenamento de grandes quantidades de dados de forma integrada e consistente, tornando-o num sistema ideal para o suporte de processos de tomada de decisão. De forma a manter os seus repositórios devidamente atualizados, os dados extraídos das fontes de informação utilizadas devem ser transformados de acordo com os requisitos de tomada de decisão para posterior povoamento do seu repositório de armazenamento – o Data Warehouse. Todas essas tarefas de gestão e transformação de dados são suportadas por processos de povoamento que com base em sofisticadas estratégias caracterizam o sistema de ETL. Os processos de ETL (Extract, Transform, Load) são processos bastante específicos, orientados a dados e com uma estrutura que requer a atenção de recursos humanos altamente especializados de diversos domínios. A sua composição é essencialmente baseada em operações muito detalhadas, baseadas em linguagens, metodologias e arquiteturas específicas que originam processos de grandes dimensões, difíceis de desenvolver e manter. Como resultado, o seu desenvolvimento e manutenção consume uma parte substancial dos recursos necessários para a implementação do sistema de Data Warehousing. Estas características são essencialmente afetadas pela mudança de requisitos que resulta de processos de negócio evolutivos que afetam não só a estrutura do Data Warehouse, mas também a estrutura das fontes de dados utilizadas. Nos últimos anos têm sido realizados desenvolvimentos significativos na área, no entanto, ainda não existe uma abordagem convincente e simples que com base na especificação conceptual e lógica de processos de ETL, proporcione um mapeamento em primitivas de execução tendo por base formalismos sólidos que garantam a noção de consistência do processo. Assim, no sentido de facilitar o seu processo de implementação, um conjunto de meta modelos (padrões) que representam tarefas de ETL tipicamente utilizadas e documentadas, são apresentados. Os padrões representam construtores de alto nível, que só por si permitem desenhar e validar uma primeira versão do sistema de povoamento antes de proceder à sua implementação, simplificando a representação de modelos mais abstratos (muito úteis para fases iniciais do desenvolvimento do projeto) e ao mesmo tempo disponibilizando os meios necessários para possibilitar o seu mapeamento para primitivas de execução. Desta forma, os recursos direcionados para suportar a fase de planeamento e desenho do projeto podem ser aproveitados em fases de desenvolvimento posteriores (essencialmente mais técnicas), proporcionando uma visão integradora e unificada do processo de desenvolvimento. Com esta abordagem, componentes abstratos podem ser configurados de forma a reorganizar as tarefas que os constituem para proporcionar a geração de instâncias geradas tendo em consideração casos muito particulares. Não só as diversas fases do desenvolvimento do projeto ficam simplificadas, como também é possível encapsular o conhecimento adquirido para outros projetos através da aplicação de práticas conhecidas e validadas, permitindo a construção de sistemas mais fiáveis associados a uma redução do tempo e recursos necessários para a sua implementação. A representação conceptual é suportada pela utilização de BPMN (Business Process Model and Notation), utilizando os construtores disponibilizados pela linguagem para o desenvolvimento de fluxos de trabalho bastante detalhados que descrevem os componentes utilizados e como estes se integram com os restantes componentes de ETL existentes. De seguida, os padrões identificados no modelo conceptual são enriquecidos com uma semântica específica, suportada por uma linguagem de domínio especialmente desenvolvida de acordo os requisitos de cada padrão. Estas primitivas lógicas podem ser mais tarde utilizadas para a geração de modelos físicos que podem ser executados utilizando uma ferramenta comercial já existente. Este trabalho apresenta a aplicação dos diversos padrões utilizando para isso um caso de estudo que exemplifica a aplicação de uma abordagem orientada a padrões para o desenvolvimento de sistemas de ETL.Belo, OrlandoUniversidade do MinhoOliveira, Bruno Moisés Teixeira2018-06-212018-06-21T00:00:00Zdoctoral thesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://hdl.handle.net/1822/56801eng101444583info:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-05-11T05:37:02Zoai:repositorium.sdum.uminho.pt:1822/56801Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T15:24:09.542137Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv A pattern-based approach for ETL systems modelling and validation
Uma abordagem orientada a padrões para a modelação e validação de sistemas de ETL
title A pattern-based approach for ETL systems modelling and validation
spellingShingle A pattern-based approach for ETL systems modelling and validation
Oliveira, Bruno Moisés Teixeira
Data Warehouse
Extract-Transform-Load
ETL conceptual and logical modelling
ETL patterns
Business Process Model and Language (BPMN)
pattern configuration and instantiation
domain-specific language and physical model’s generation
Armazéns de dados
Modelação conceptual e lógica de um processo de ETL
padrões para ETL
Business Process Model and Language (BPMN)
linguagem de domínio para configuração e instanciação de padrões e geração de modelos físicos
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short A pattern-based approach for ETL systems modelling and validation
title_full A pattern-based approach for ETL systems modelling and validation
title_fullStr A pattern-based approach for ETL systems modelling and validation
title_full_unstemmed A pattern-based approach for ETL systems modelling and validation
title_sort A pattern-based approach for ETL systems modelling and validation
author Oliveira, Bruno Moisés Teixeira
author_facet Oliveira, Bruno Moisés Teixeira
author_role author
dc.contributor.none.fl_str_mv Belo, Orlando
Universidade do Minho
dc.contributor.author.fl_str_mv Oliveira, Bruno Moisés Teixeira
dc.subject.por.fl_str_mv Data Warehouse
Extract-Transform-Load
ETL conceptual and logical modelling
ETL patterns
Business Process Model and Language (BPMN)
pattern configuration and instantiation
domain-specific language and physical model’s generation
Armazéns de dados
Modelação conceptual e lógica de um processo de ETL
padrões para ETL
Business Process Model and Language (BPMN)
linguagem de domínio para configuração e instanciação de padrões e geração de modelos físicos
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Data Warehouse
Extract-Transform-Load
ETL conceptual and logical modelling
ETL patterns
Business Process Model and Language (BPMN)
pattern configuration and instantiation
domain-specific language and physical model’s generation
Armazéns de dados
Modelação conceptual e lógica de um processo de ETL
padrões para ETL
Business Process Model and Language (BPMN)
linguagem de domínio para configuração e instanciação de padrões e geração de modelos físicos
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Tese de Doutoramento em Informática
publishDate 2018
dc.date.none.fl_str_mv 2018-06-21
2018-06-21T00:00:00Z
dc.type.driver.fl_str_mv doctoral thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/56801
url http://hdl.handle.net/1822/56801
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 101444583
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833595294567104512