A model for automatized data integration in hadoop-based data lakes

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Couto, Júlia Mara Colleoni lattes
Orientador(a): Ruiz, Duncan Dubugras Alcoba lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Pontifícia Universidade Católica do Rio Grande do Sul
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Departamento: Escola Politécnica
País: Brasil
Palavras-chave em Português:
Palavras-chave em Inglês:
Área do conhecimento CNPq:
Link de acesso: https://tede2.pucrs.br/tede2/handle/tede/10250
Resumo: A imensa quantidade de dados que são gerados atualmente pelos nossos sistemas computacionais e dispositivos, conhecida por big data, requer tecnologias específicas, como data lakes, para que possam ser armazenados, processados e distribuídos. Data lakes são arquiteturas onde dados dos mais diversos formatos são armazenados para que sejam consultados quando necessário, sem a necessidade de esquemas prévios. Data lakes possibilitam o gerenciamento de ecossistemas de big data, e, hoje em dia, a maioria é criada tendo como base o framework Hadoop. Um dos desafios relacionados a data lakes é a integração dos dados de variados formatos. A integração dos dados é uma tarefa complexa que requer a atenção de um especialista, toma tempo e é sujeita a erros. Contudo, essa tarefa pode ser facilitada se forem utilizadas técnicas para conhecer o perfil dos dados. Nesta tese, desenvolve-se um modelo para automatizar o processo de integração de dados heterogêneos em data lakes baseados em Hadoop. O método desenhado para auxiliar a atingir os objetivos de pesquisa divide-se em 5 fases: Fundamentação, Implementação, Experimentação, Avaliação e Modelo final. As principais contribuições desta tese incluem os achados de três revisões sistemáticas da literatura, onde são exaustivamente discutidos os temas relacionados a data lakes, big data profiling e integração de dados em data lakes, e que serviram de base para o desenvolvimento de um modelo que possibilita a integração automatizada de dados heterogêneos em data lakes baseados no Hadoop, além dos experimentos com dados de bioinformática.