Export Ready — 

Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing

Bibliographic Details
Main Author: Vilela, Flávio de Assis
Publication Date: 2021
Format: Doctoral thesis
Language: por
Source: Repositório Institucional da UFSCAR
Download full: https://repositorio.ufscar.br/handle/20.500.14289/15889
Summary: There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process.
id SCAR_5f99c68987ca4977a8e23c3b048bbe8d
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/15889
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Vilela, Flávio de AssisCiferri, Ricardo Rodrigueshttp://lattes.cnpq.br/8382221522817502http://lattes.cnpq.br/219752609215723571cb5b8b-fb26-477b-bc22-adf1c74d8acd2022-04-21T12:09:54Z2022-04-21T12:09:54Z2021-12-20VILELA, Flávio de Assis. Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/15889.https://repositorio.ufscar.br/handle/20.500.14289/15889There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process.É cada vez maior o interesse em se obter dados que apoiem o processo de tomada de decisão estratégica nas organizações. Esses dados estão disponíveis em fontes de dados no ambiente operacional, as quais são autônomas, heterogêneas e distribuídas. Os dados são obtidos por meio do processo de Extração, Transformação e Carga (do inglês Extract, Transform, and Loading - (ETL)) e armazenados no ambiente informacional em uma base de dados homogênea e dimensional chamada data warehouse. O processo ETL ocorre tradicionalmente em momentos predefinidos, tais como diariamente, semanalmente, mensalmente ou de acordo com as regras de atualização de dados da organização. Entretanto, existem aplicações que necessitam obter os dados operacionais o mais rápido possível ou imediatamente após os dados serem produzidos nas fontes de dados. Exemplos dessas aplicações são sistemas médicos, sistemas de controle de rodovias e sistemas para agropecuária digital. Portanto, o processo ETL tradicional e as técnicas disponíveis atualmente são incapazes de disponibilizar os dados para tomada de decisão em tempo real, garantindo os requisitos de disponibilidade, baixo tempo de resposta e escalabilidade. Este trabalho apresenta uma inovadora arquitetura não intrusiva e reativa, chamada Imã de Dados, a partir da qual é possível realizar o processo ETL em tempo real em ambientes de data warehousing. A característica não intrusiva permite que a solução não necessite buscar os dados no ambiente operacional e desta forma não é necessário realizar a conexão com as fontes de dados e nem lidar diretamente com a heterogeneidade dos dados. Já a característica reativa indica que a solução irá reagir a eventos ocorridos no ambiente operacional e executar uma ação automaticamente de forma a garantir os requisitos de tempo real. Dois testes experimentais foram realizados, o primeiro em ambiente real no domínio da pecuária leiteira e o segundo em um ambiente sintético, mostraram que o Imã de Dados é capaz de processar corretamente todo o fluxo de ETL em tempo real. Além disso, o Imã de Dados apresentou um bom desempenho com baixo tempo de resposta, garantiu disponibilidade e apresentou escalabilidade à medida que ocorreu o aumento do volume de dados. Em especial, o Imã de Dados produziu um grande ganho de desempenho considerando o tempo médio, ao ser comparado com a tradicional técnica de gatilhos, comumente usada em processos ETL de tempo real.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessETLTempo realExtração de dadosCarga de dadosCarregamento de dadosReal-timeData warehousingData warehouseData extractionData loadingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOUma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousingA non-intrusive and reactive architecture to perform the ETL process in a real-time in a data warehousing environmentinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis6006003b1d5172-8bf0-4d0b-8777-ab82599bbf09reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTese_Doutorado_Flavio_Vilela_Final.pdfTese_Doutorado_Flavio_Vilela_Final.pdfTese de doutorado - versão finalapplication/pdf5663963https://repositorio.ufscar.br/bitstreams/86b9712c-319e-4939-9068-c27ebebed6df/download830d4a012f12bef77a99c7a5cf4f1c6fMD53trueAnonymousREADCartaComprovacaoVersaoFinal.pdfCartaComprovacaoVersaoFinal.pdfCarta de autorização preenchida e assinada pelo orientadorapplication/pdf542663https://repositorio.ufscar.br/bitstreams/51b0f90b-ce3a-4ef1-922c-6362b20f73fb/download6efe7a63cf22f05f7760ae1f0c326eceMD56falseCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/12011fce-e03e-43a0-aa27-bd5cd3cbc72e/downloade39d27027a6cc9cb039ad269a5db8e34MD57falseAnonymousREADTEXTTese_Doutorado_Flavio_Vilela_Final.pdf.txtTese_Doutorado_Flavio_Vilela_Final.pdf.txtExtracted texttext/plain538579https://repositorio.ufscar.br/bitstreams/347f0aae-b0d8-46e0-84e6-049d3b88a1ee/download6fa0b0fd2540147ad975bf3ecf40e487MD512falseAnonymousREADCartaComprovacaoVersaoFinal.pdf.txtCartaComprovacaoVersaoFinal.pdf.txtExtracted texttext/plain1https://repositorio.ufscar.br/bitstreams/09911c92-71cd-400c-8c7e-71953c03b3a3/download68b329da9893e34099c7d8ad5cb9c940MD514falseTHUMBNAILTese_Doutorado_Flavio_Vilela_Final.pdf.jpgTese_Doutorado_Flavio_Vilela_Final.pdf.jpgIM Thumbnailimage/jpeg6545https://repositorio.ufscar.br/bitstreams/55e651d5-80f3-416a-8348-ba7bacde9545/downloade3730a747a4413448147bd6600e652bcMD513falseAnonymousREADCartaComprovacaoVersaoFinal.pdf.jpgCartaComprovacaoVersaoFinal.pdf.jpgIM Thumbnailimage/jpeg10537https://repositorio.ufscar.br/bitstreams/90636915-e5b5-4891-b5d0-6ebe47ee20a9/download80b77701f938e1ad9e40300b30cf220bMD515false20.500.14289/158892025-02-05 21:08:40.034http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/15889https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T00:08:40Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
dc.title.alternative.eng.fl_str_mv A non-intrusive and reactive architecture to perform the ETL process in a real-time in a data warehousing environment
title Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
spellingShingle Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
Vilela, Flávio de Assis
ETL
Tempo real
Extração de dados
Carga de dados
Carregamento de dados
Real-time
Data warehousing
Data warehouse
Data extraction
Data loading
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
title_full Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
title_fullStr Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
title_full_unstemmed Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
title_sort Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
author Vilela, Flávio de Assis
author_facet Vilela, Flávio de Assis
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/2197526092157235
dc.contributor.author.fl_str_mv Vilela, Flávio de Assis
dc.contributor.advisor1.fl_str_mv Ciferri, Ricardo Rodrigues
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8382221522817502
dc.contributor.authorID.fl_str_mv 71cb5b8b-fb26-477b-bc22-adf1c74d8acd
contributor_str_mv Ciferri, Ricardo Rodrigues
dc.subject.por.fl_str_mv ETL
Tempo real
Extração de dados
Carga de dados
Carregamento de dados
topic ETL
Tempo real
Extração de dados
Carga de dados
Carregamento de dados
Real-time
Data warehousing
Data warehouse
Data extraction
Data loading
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Real-time
Data warehousing
Data warehouse
Data extraction
Data loading
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process.
publishDate 2021
dc.date.issued.fl_str_mv 2021-12-20
dc.date.accessioned.fl_str_mv 2022-04-21T12:09:54Z
dc.date.available.fl_str_mv 2022-04-21T12:09:54Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv VILELA, Flávio de Assis. Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/15889.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/15889
identifier_str_mv VILELA, Flávio de Assis. Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/15889.
url https://repositorio.ufscar.br/handle/20.500.14289/15889
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 3b1d5172-8bf0-4d0b-8777-ab82599bbf09
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/86b9712c-319e-4939-9068-c27ebebed6df/download
https://repositorio.ufscar.br/bitstreams/51b0f90b-ce3a-4ef1-922c-6362b20f73fb/download
https://repositorio.ufscar.br/bitstreams/12011fce-e03e-43a0-aa27-bd5cd3cbc72e/download
https://repositorio.ufscar.br/bitstreams/347f0aae-b0d8-46e0-84e6-049d3b88a1ee/download
https://repositorio.ufscar.br/bitstreams/09911c92-71cd-400c-8c7e-71953c03b3a3/download
https://repositorio.ufscar.br/bitstreams/55e651d5-80f3-416a-8348-ba7bacde9545/download
https://repositorio.ufscar.br/bitstreams/90636915-e5b5-4891-b5d0-6ebe47ee20a9/download
bitstream.checksum.fl_str_mv 830d4a012f12bef77a99c7a5cf4f1c6f
6efe7a63cf22f05f7760ae1f0c326ece
e39d27027a6cc9cb039ad269a5db8e34
6fa0b0fd2540147ad975bf3ecf40e487
68b329da9893e34099c7d8ad5cb9c940
e3730a747a4413448147bd6600e652bc
80b77701f938e1ad9e40300b30cf220b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1834469086911791104