Um modelo de suporte para conformidade de data lake com a LGPD
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/49411 |
Resumo: | Na era do Big Data, um grande volume de dados estruturados, semi-estruturados, e principalmente não estruturados é gerado muito mais rápido por tecnologias digitais e sistemas de informação. Neste contexto, Data Lakes surgiram como uma alternativa aos tradicionais Data Warehouses, tornando-se uma das soluções de Big Data mais utilizadas para análise e gerenciamento distribuído de grande volumes de dados. A ideia principal do Data Lake é ingerir dados brutos e processá-los durante seu uso, caracterizando a abordagem schema on-read. Durante seu ciclo de vida em um Data Lake, um dado pode passar por inúmeras transformações, levando a questões de rastreabilidade. Com a Lei Geral de Proteção de Dados Pessoais - LGPD em vigor, as organizações precisam ter ao seu dispor, além das mudanças ocorridas nos dados, informações sobre quem modificou, onde modificou e as dependências geradas. Visando atender esse problema, alguns modelos de metadados foram propostos na literatura. No entanto, nenhum deles foca em apresentar metadados que descrevam o ciclo de vida dos dados. Sendo assim, essa dissertação propõe um Modelo de Suporte para Conformidade de Data Lake com a LGPD (Data Lake Compliance Model - DLCM), que tem como objetivo descrever os conjuntos de dados no Data Lake e os tratamentos aplicados sobre eles. Para isso, o DLCM subdivide-se em duas partes: A primeira reúne todos os elementos de metadados necessários para atendimento de uma solicitação de acesso aos dados, enquanto que a segunda parte, é composta pelo agrupamento desses metadados por categorias, onde cada categoria possui um modelo associado. Os resultados obtidos a partir da avaliação do DLCM mostraram a relevância da solução proposta no contexto de Data Lakes. |