Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing
Main Author: | |
---|---|
Publication Date: | 2021 |
Format: | Doctoral thesis |
Language: | por |
Source: | Repositório Institucional da UFSCAR |
Download full: | https://repositorio.ufscar.br/handle/20.500.14289/15889 |
Summary: | There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process. |
id |
SCAR_5f99c68987ca4977a8e23c3b048bbe8d |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/15889 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Vilela, Flávio de AssisCiferri, Ricardo Rodrigueshttp://lattes.cnpq.br/8382221522817502http://lattes.cnpq.br/219752609215723571cb5b8b-fb26-477b-bc22-adf1c74d8acd2022-04-21T12:09:54Z2022-04-21T12:09:54Z2021-12-20VILELA, Flávio de Assis. Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/15889.https://repositorio.ufscar.br/handle/20.500.14289/15889There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process.É cada vez maior o interesse em se obter dados que apoiem o processo de tomada de decisão estratégica nas organizações. Esses dados estão disponíveis em fontes de dados no ambiente operacional, as quais são autônomas, heterogêneas e distribuídas. Os dados são obtidos por meio do processo de Extração, Transformação e Carga (do inglês Extract, Transform, and Loading - (ETL)) e armazenados no ambiente informacional em uma base de dados homogênea e dimensional chamada data warehouse. O processo ETL ocorre tradicionalmente em momentos predefinidos, tais como diariamente, semanalmente, mensalmente ou de acordo com as regras de atualização de dados da organização. Entretanto, existem aplicações que necessitam obter os dados operacionais o mais rápido possível ou imediatamente após os dados serem produzidos nas fontes de dados. Exemplos dessas aplicações são sistemas médicos, sistemas de controle de rodovias e sistemas para agropecuária digital. Portanto, o processo ETL tradicional e as técnicas disponíveis atualmente são incapazes de disponibilizar os dados para tomada de decisão em tempo real, garantindo os requisitos de disponibilidade, baixo tempo de resposta e escalabilidade. Este trabalho apresenta uma inovadora arquitetura não intrusiva e reativa, chamada Imã de Dados, a partir da qual é possível realizar o processo ETL em tempo real em ambientes de data warehousing. A característica não intrusiva permite que a solução não necessite buscar os dados no ambiente operacional e desta forma não é necessário realizar a conexão com as fontes de dados e nem lidar diretamente com a heterogeneidade dos dados. Já a característica reativa indica que a solução irá reagir a eventos ocorridos no ambiente operacional e executar uma ação automaticamente de forma a garantir os requisitos de tempo real. Dois testes experimentais foram realizados, o primeiro em ambiente real no domínio da pecuária leiteira e o segundo em um ambiente sintético, mostraram que o Imã de Dados é capaz de processar corretamente todo o fluxo de ETL em tempo real. Além disso, o Imã de Dados apresentou um bom desempenho com baixo tempo de resposta, garantiu disponibilidade e apresentou escalabilidade à medida que ocorreu o aumento do volume de dados. Em especial, o Imã de Dados produziu um grande ganho de desempenho considerando o tempo médio, ao ser comparado com a tradicional técnica de gatilhos, comumente usada em processos ETL de tempo real.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessETLTempo realExtração de dadosCarga de dadosCarregamento de dadosReal-timeData warehousingData warehouseData extractionData loadingCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOUma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousingA non-intrusive and reactive architecture to perform the ETL process in a real-time in a data warehousing environmentinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis6006003b1d5172-8bf0-4d0b-8777-ab82599bbf09reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTese_Doutorado_Flavio_Vilela_Final.pdfTese_Doutorado_Flavio_Vilela_Final.pdfTese de doutorado - versão finalapplication/pdf5663963https://repositorio.ufscar.br/bitstreams/86b9712c-319e-4939-9068-c27ebebed6df/download830d4a012f12bef77a99c7a5cf4f1c6fMD53trueAnonymousREADCartaComprovacaoVersaoFinal.pdfCartaComprovacaoVersaoFinal.pdfCarta de autorização preenchida e assinada pelo orientadorapplication/pdf542663https://repositorio.ufscar.br/bitstreams/51b0f90b-ce3a-4ef1-922c-6362b20f73fb/download6efe7a63cf22f05f7760ae1f0c326eceMD56falseCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstreams/12011fce-e03e-43a0-aa27-bd5cd3cbc72e/downloade39d27027a6cc9cb039ad269a5db8e34MD57falseAnonymousREADTEXTTese_Doutorado_Flavio_Vilela_Final.pdf.txtTese_Doutorado_Flavio_Vilela_Final.pdf.txtExtracted texttext/plain538579https://repositorio.ufscar.br/bitstreams/347f0aae-b0d8-46e0-84e6-049d3b88a1ee/download6fa0b0fd2540147ad975bf3ecf40e487MD512falseAnonymousREADCartaComprovacaoVersaoFinal.pdf.txtCartaComprovacaoVersaoFinal.pdf.txtExtracted texttext/plain1https://repositorio.ufscar.br/bitstreams/09911c92-71cd-400c-8c7e-71953c03b3a3/download68b329da9893e34099c7d8ad5cb9c940MD514falseTHUMBNAILTese_Doutorado_Flavio_Vilela_Final.pdf.jpgTese_Doutorado_Flavio_Vilela_Final.pdf.jpgIM Thumbnailimage/jpeg6545https://repositorio.ufscar.br/bitstreams/55e651d5-80f3-416a-8348-ba7bacde9545/downloade3730a747a4413448147bd6600e652bcMD513falseAnonymousREADCartaComprovacaoVersaoFinal.pdf.jpgCartaComprovacaoVersaoFinal.pdf.jpgIM Thumbnailimage/jpeg10537https://repositorio.ufscar.br/bitstreams/90636915-e5b5-4891-b5d0-6ebe47ee20a9/download80b77701f938e1ad9e40300b30cf220bMD515false20.500.14289/158892025-02-05 21:08:40.034http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/15889https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T00:08:40Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing |
dc.title.alternative.eng.fl_str_mv |
A non-intrusive and reactive architecture to perform the ETL process in a real-time in a data warehousing environment |
title |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing |
spellingShingle |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing Vilela, Flávio de Assis ETL Tempo real Extração de dados Carga de dados Carregamento de dados Real-time Data warehousing Data warehouse Data extraction Data loading CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing |
title_full |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing |
title_fullStr |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing |
title_full_unstemmed |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing |
title_sort |
Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing |
author |
Vilela, Flávio de Assis |
author_facet |
Vilela, Flávio de Assis |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/2197526092157235 |
dc.contributor.author.fl_str_mv |
Vilela, Flávio de Assis |
dc.contributor.advisor1.fl_str_mv |
Ciferri, Ricardo Rodrigues |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8382221522817502 |
dc.contributor.authorID.fl_str_mv |
71cb5b8b-fb26-477b-bc22-adf1c74d8acd |
contributor_str_mv |
Ciferri, Ricardo Rodrigues |
dc.subject.por.fl_str_mv |
ETL Tempo real Extração de dados Carga de dados Carregamento de dados |
topic |
ETL Tempo real Extração de dados Carga de dados Carregamento de dados Real-time Data warehousing Data warehouse Data extraction Data loading CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Real-time Data warehousing Data warehouse Data extraction Data loading |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
There is a great interest in obtaining data that support the decision-making process in business. These data are available in data sources in the operational environment, which are autonomous, heterogeneous, and distributed. The data are extracted through the Extract, Transform, and Load process (ETL) and stored in the informational environment in a homogeneous, integrated, and dimensional database called data warehouse. The ETL process traditionally takes place at predefined periods, such as daily, weekly, monthly, or according to the organization's data update rules. However, there are applications that need operational data as quickly as possible or immediately after the data is available from data sources. Examples of these applications are medical systems, highway control systems and digital farming systems. Therefore, the traditional ETL process and currently available techniques are unable to make the data available for decision making in real-time, ensuring availability, low elapsed time, and scalability. This work presents an innovative, non-intrusive and reactive architecture, called Data Magnet, from which it is possible to perform the ETL process in real time in data warehousing environments. The non-intrusive feature means that the solution does not need to search for data in the operating environment and, therefore, it is not necessary to make a connection with the data sources or deal directly with the heterogeneity of the data. The reactive feature indicates that the solution will react to events in the operating environment and perform an automatic action in order to guarantee real-time requirements. Two experimental tests were performed, the first one in a real environment in the field of dairy farming, and the second one in a synthetic environment, in order to assess the Data Magnet with a high volume of data. In addition, the Data Magnet produced a good performance with low elapsed time, guaranteed availability and great scalability as the data volume increased. The Data Magnet also produced a huge performance gain for the average metric with regard to the traditional trigger technique commonly used in real-time ETL process. |
publishDate |
2021 |
dc.date.issued.fl_str_mv |
2021-12-20 |
dc.date.accessioned.fl_str_mv |
2022-04-21T12:09:54Z |
dc.date.available.fl_str_mv |
2022-04-21T12:09:54Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
VILELA, Flávio de Assis. Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/15889. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/15889 |
identifier_str_mv |
VILELA, Flávio de Assis. Uma arquitetura não intrusiva e reativa para realizar o processo ETL em tempo real em ambientes de data warehousing. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/15889. |
url |
https://repositorio.ufscar.br/handle/20.500.14289/15889 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
3b1d5172-8bf0-4d0b-8777-ab82599bbf09 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/86b9712c-319e-4939-9068-c27ebebed6df/download https://repositorio.ufscar.br/bitstreams/51b0f90b-ce3a-4ef1-922c-6362b20f73fb/download https://repositorio.ufscar.br/bitstreams/12011fce-e03e-43a0-aa27-bd5cd3cbc72e/download https://repositorio.ufscar.br/bitstreams/347f0aae-b0d8-46e0-84e6-049d3b88a1ee/download https://repositorio.ufscar.br/bitstreams/09911c92-71cd-400c-8c7e-71953c03b3a3/download https://repositorio.ufscar.br/bitstreams/55e651d5-80f3-416a-8348-ba7bacde9545/download https://repositorio.ufscar.br/bitstreams/90636915-e5b5-4891-b5d0-6ebe47ee20a9/download |
bitstream.checksum.fl_str_mv |
830d4a012f12bef77a99c7a5cf4f1c6f 6efe7a63cf22f05f7760ae1f0c326ece e39d27027a6cc9cb039ad269a5db8e34 6fa0b0fd2540147ad975bf3ecf40e487 68b329da9893e34099c7d8ad5cb9c940 e3730a747a4413448147bd6600e652bc 80b77701f938e1ad9e40300b30cf220b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
_version_ |
1834469086911791104 |