A model for automatized data integration in hadoop-based data lakes

Couto, Júlia Mara Colleoni

A model for automatized data integration in hadoop-based data lakes

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Couto, Júlia Mara Colleoni
Orientador(a):	Ruiz, Duncan Dubugras Alcoba
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação
Departamento:	Escola Politécnica
País:	Brasil
Palavras-chave em Português:	Big Data Data Lake Hadoop Perfilagem de Dados Integração de Dados
Palavras-chave em Inglês:	Big Data Data Lake Hadoop Data Profiling Data Integration
Área do conhecimento CNPq:	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
Link de acesso:	https://tede2.pucrs.br/tede2/handle/tede/10250
Resumo:	A imensa quantidade de dados que são gerados atualmente pelos nossos sistemas computacionais e dispositivos, conhecida por big data, requer tecnologias específicas, como data lakes, para que possam ser armazenados, processados e distribuídos. Data lakes são arquiteturas onde dados dos mais diversos formatos são armazenados para que sejam consultados quando necessário, sem a necessidade de esquemas prévios. Data lakes possibilitam o gerenciamento de ecossistemas de big data, e, hoje em dia, a maioria é criada tendo como base o framework Hadoop. Um dos desafios relacionados a data lakes é a integração dos dados de variados formatos. A integração dos dados é uma tarefa complexa que requer a atenção de um especialista, toma tempo e é sujeita a erros. Contudo, essa tarefa pode ser facilitada se forem utilizadas técnicas para conhecer o perfil dos dados. Nesta tese, desenvolve-se um modelo para automatizar o processo de integração de dados heterogêneos em data lakes baseados em Hadoop. O método desenhado para auxiliar a atingir os objetivos de pesquisa divide-se em 5 fases: Fundamentação, Implementação, Experimentação, Avaliação e Modelo final. As principais contribuições desta tese incluem os achados de três revisões sistemáticas da literatura, onde são exaustivamente discutidos os temas relacionados a data lakes, big data profiling e integração de dados em data lakes, e que serviram de base para o desenvolvimento de um modelo que possibilita a integração automatizada de dados heterogêneos em data lakes baseados no Hadoop, além dos experimentos com dados de bioinformática.

A model for automatized data integration in hadoop-based data lakes

Registros relacionados