ETL systems modelling with Coloured Petri Nets

Bibliographic Details
Main Author: Silva, Diogo
Publication Date: 2013
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/1822/27955
Summary: Dissertação de mestrado em Engenharia Informática
id RCAP_7ac9cffad5462a2c1fe4d73bfaa1298a
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/27955
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling ETL systems modelling with Coloured Petri NetsModelação de sistemas de ETL com Redes de Petri Coloridas681.3.062Dissertação de mestrado em Engenharia InformáticaETL (Extract-Transform-Load) systems are formed by processes responsible for the extraction of data from several sources, cleaning and transforming it in accordance with some prerequisites of a data warehouse, and finally loading it in its multidimensional structures. ETL processes are the most complex tasks involved with a Data Warehousing System, being crucial to model them previously so that, during the implementation stage, the correct set of requirements is considered. Coloured Petri Nets (CPN) are a graphical modelling language used in the design, specification, simulation and validation of large systems, characterized as being strongly concurrent. In this dissertation the carried out study concerning the application of CPN in the conceptual design and validation of ETL systems is presented. Initially, a brief research on the existing approaches for the conceptual modelling of ETL systems was made, in order to determine if the conceptual design is usually adopted during the implementation of DWS (Data Warehousing Systems) and also to find out which modelling languages are mostly used in this kind of task. As it was confirmed by this initial research, the conceptual modelling of ETL is not common and the CPN is not one of the languages that have already been used to design and validate this type of systems. In order to use the CPN in ETL system design an in-depth study of this language’s concepts was made; at the same time two of the most simple, yet very important, processes were selected as a first approach and study cases: the Surrogate Key Pipelining (SKP) and the Surrogate Key Generation. Prior to the design of each process, a theoretical study concerning its behaviour and structure was carried out, according to the methodology proposed by Ralph Kimball (Kimball and Caserta, 2004). The first two designed models are the smallest presented here, as they model relatively simple processes and, as such, do not need hierarchy concepts to be applied. After testing the CPN modelling language in the design and validation of these simple tasks, the modelling process moved on to more complex ETL standard tasks. The Slowly Changing Dimension (SCD) was chosen to continue this study as it is composed of smaller operations (or sub-processes) and presented itself as a great study case for the introduction of hierarchical concepts. The last ETL task to be considered in this study is the Change Data Capture (CDC). There are many different ways to implement this process; the more advanced ones are automatic and depend on the DBMS used by the operational sources. To implement the corresponding CPN model a DBMS (Data Base Management System) was selected, and its CDC process analysed, so that it could be modelled accordingly. With these three complete CPN modules (or packages), each of them representing an ETL task, it is possible to model ETL systems that are composed by these operations. For this dissertation work to be completed a CPN model for an entire ETL system, based on an example data mart, was designed with the objective of demonstrating the application of the already defined modules in the conceptual design of ETL.Os sistemas de ETL (Extract-Transform-Load) são formados por processos responsáveis pela extração de dados de diversas fontes, pela sua limpeza e transformação de acordo com os prérequisitos de um data warehouse, e finalmente pelo seu carregamento em estruturas multidimensionais. Os processos de ETL são as tarefas mais complexas no desenvolvimento de um sistema de data warehousing, sendo essencial modelar tais tarefas para que, durante a fase de implementação, sejam considerados os requisitos certos do sistema. As Redes de Petri Coloridas são uma linguagem de modelação gráfica usada no desenho, especificação, simulação e validação de sistemas concorrentes. Nesta dissertação é apresentado o estudo relativo à aplicação das Redes de Petri Coloridas (RPC) no desenho conceptual e validação de sistemas de ETL (Extract-Transform-Load). Para o iniciar foi feita uma pesquisa das abordagens já existentes, no que diz respeito à modelação conceptual deste tipo de sistemas, para determinar se o seu desenho conceptual é normalmente efetuado durante a implementação de Sistemas de Data Warehouse e também para determinar quais as linguagens de modelação adotadas neste tipo de tarefa. Esta pesquisa confirmou que, para além de não ser usual modelar conceptualmente sistemas de ETL antes da sua implementação, as RPC nunca foram usadas para tal. Para usar as RPC na modelação de sistemas de ETL foi feito um estudo mais aprofundado dos conceitos desta linguagem; ao mesmo tempo foram selecionados para uma primeira abordagem dois processos de ETL que, embora simples, são determinantes neste tipo de sistemas: Surrogate Key Pipeline (SKP) e Surrogate Key Generation. Antes destes processos serem modelados foi efetuado um estudo teórico relativo ao comportamento e estrutura de cada um, de acordo com a metodologia proposta por Ralph Kimball (Kimball and Caserta, 2004). Os primeiros modelos implementados são bastante acessíveis pois, para além de os processos correspondentes serem relativamente simples, não necessitam de utilizar conceitos hierárquicos. Depois de testada a capacidade das RPC no desenho e validação de tarefas mais simples, foi selecionado um processo padrão nos sistemas de ETL – Slowly Changing Dimensions (SCD) – para dar continuidade a este estudo, pois é uma tarefa mais complexa composta por operações mais pequenas (ou subprocessos) e é por isso adequada para a introdução de conceitos hierárquicos. O último processo de ETL a ser considerado neste estudo é o Change Data Capture (CDC). Existem variadas maneiras de implementar este processo; os métodos mais avançados são automáticos e dependem do Sistema de Gestão de Base de Dados (SGBD) usado nas fontes operacionais. Para implementar o modelo correspondente foi selecionado um SGBD e o seu método de CDC analisado para que este fosse modelado de acordo com o seu comportamento. Depois dos três módulos estarem completos, cada um deles representando uma processo padrão de ETL, é possível modelar sistemas de ETL que sejam formados por estas operações. Para terminar este trabalho de dissertação foi implementado um modelo, com RPC, para um sistema de ETL baseado num data mart dado como exemplo, com o objetivo de demonstrar a aplicação prática dos módulos implementados no desenho conceptual de ETL.Belo, OrlandoFernandes, João M.Universidade do MinhoSilva, Diogo2013-03-222013-03-22T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/27955enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-05-11T07:21:36Zoai:repositorium.sdum.uminho.pt:1822/27955Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T16:24:30.498480Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv ETL systems modelling with Coloured Petri Nets
Modelação de sistemas de ETL com Redes de Petri Coloridas
title ETL systems modelling with Coloured Petri Nets
spellingShingle ETL systems modelling with Coloured Petri Nets
Silva, Diogo
681.3.062
title_short ETL systems modelling with Coloured Petri Nets
title_full ETL systems modelling with Coloured Petri Nets
title_fullStr ETL systems modelling with Coloured Petri Nets
title_full_unstemmed ETL systems modelling with Coloured Petri Nets
title_sort ETL systems modelling with Coloured Petri Nets
author Silva, Diogo
author_facet Silva, Diogo
author_role author
dc.contributor.none.fl_str_mv Belo, Orlando
Fernandes, João M.
Universidade do Minho
dc.contributor.author.fl_str_mv Silva, Diogo
dc.subject.por.fl_str_mv 681.3.062
topic 681.3.062
description Dissertação de mestrado em Engenharia Informática
publishDate 2013
dc.date.none.fl_str_mv 2013-03-22
2013-03-22T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/27955
url http://hdl.handle.net/1822/27955
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833595923876282368