Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
MACIEL, Vitória Maria da Silva |
Orientador(a): |
LÓSCIO, Bernadette Farias |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/49411
|
Resumo: |
Na era do Big Data, um grande volume de dados estruturados, semi-estruturados, e principalmente não estruturados é gerado muito mais rápido por tecnologias digitais e sistemas de informação. Neste contexto, Data Lakes surgiram como uma alternativa aos tradicionais Data Warehouses, tornando-se uma das soluções de Big Data mais utilizadas para análise e gerenciamento distribuído de grande volumes de dados. A ideia principal do Data Lake é ingerir dados brutos e processá-los durante seu uso, caracterizando a abordagem schema on-read. Durante seu ciclo de vida em um Data Lake, um dado pode passar por inúmeras transformações, levando a questões de rastreabilidade. Com a Lei Geral de Proteção de Dados Pessoais - LGPD em vigor, as organizações precisam ter ao seu dispor, além das mudanças ocorridas nos dados, informações sobre quem modificou, onde modificou e as dependências geradas. Visando atender esse problema, alguns modelos de metadados foram propostos na literatura. No entanto, nenhum deles foca em apresentar metadados que descrevam o ciclo de vida dos dados. Sendo assim, essa dissertação propõe um Modelo de Suporte para Conformidade de Data Lake com a LGPD (Data Lake Compliance Model - DLCM), que tem como objetivo descrever os conjuntos de dados no Data Lake e os tratamentos aplicados sobre eles. Para isso, o DLCM subdivide-se em duas partes: A primeira reúne todos os elementos de metadados necessários para atendimento de uma solicitação de acesso aos dados, enquanto que a segunda parte, é composta pelo agrupamento desses metadados por categorias, onde cada categoria possui um modelo associado. Os resultados obtidos a partir da avaliação do DLCM mostraram a relevância da solução proposta no contexto de Data Lakes. |