Automated Data Privacy Protection using Deep Learning and Causality Techniques

Bibliographic Details
Main Author: Simões, Sancho Amaral
Publication Date: 2024
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/10316/118106
Summary: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_adc4ca6ecc2dfa487e47c44c23080423
oai_identifier_str oai:estudogeral.uc.pt:10316/118106
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Automated Data Privacy Protection using Deep Learning and Causality TechniquesProteção automatizada de privacidade de dados usando técnicas de aprendizagem profunda e causalidadeQuasi-Identifiers DetectionMachine LearningCausalityDeteção de quasi-identifiersAprendizagem de máquinaCausalidadeDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaThe digital world is flooded with massive amounts of data, driven by the rapid expansion of digital interactions and transactions. This surge in data generation has fueled higher demands for robust privacy regulation mechanisms to protect individuals' sensitive information.In response to these challenges, there is a growing need for more sophisticated and scalable privacy algorithms capable of addressing the complexities of diverse datasets. This demand is particularly pronounced in the domain of quasi-identifiers: seemingly inoffensive attributes that, when combined, pose a significant threat to individual privacy, subjecting the entity in question to re-identification attacks. The identification of quasi-identifiers is a crucial step in anonymization processes that is often performed manually.The motivation behind this research stems from the initiative to develop a unified technique capable of detecting quasi-identifiers within a given tabular \\dataset. Such a technique has not been accomplished due to the high variability of the nature of the datasets and the intrinsic complexity of the quasi-identifiers problem.Various incremental steps were taken in this research work, leading to a final deep-learning architecture conjugated with causality and anomaly detection. This innovative approach presented promising results, marking a significant advancement in the field of data privacy. The results were found to be comparable to and even better than existing methods found in the literature, suggesting a potential shift in the landscape of data privacy. To further advance the field of data privacy, a Python library named QIDLearningLi} was developed, which includes several key metrics for detecting quasi-identifiers. This library is designed to be a valuable resource for researchers and practitioners working in data privacy and anonymization. Additionally, the final architecture was integrated into a graphical application, making it accessible to a wide audience. This tool allows users to apply the model to any dataset, streamlining the process of identifying and managing quasi-identifiers.O mundo digital é inundado com enormes quantidades de dados, impulsionado pela rápida expansão de interações e transações digitais. Esse aumento na geração de dados alimentou maiores demandas por mecanismos robustos de regulamentação de privacidade para proteger as informações confidenciais dos indivíduos.Em resposta a esses desafios, há uma necessidade crescente de algoritmos de privacidade mais sofisticados e escaláveis, capazes de abordar as complexidades de diversos conjuntos de dados. Essa demanda é particularmente pronunciada no domínio de quase-identificadores: atributos aparentemente inofensivos que, quando combinados, representam uma ameaça significativa à privacidade individual, sujeitando a entidade em questão a ataques de reidentificação. A identificação de quase-identificadores é uma etapa crucial nos processos de anonimização que geralmente são realizados manualmente.A motivação por trás desta pesquisa decorre da iniciativa de desenvolver uma técnica unificada capaz de detectar quase-identificadores dentro de um determinado conjunto de dados tabular \\. Tal técnica não foi realizada devido à alta variabilidade da natureza dos conjuntos de dados e à complexidade intrínseca do problema dos quase-identificadores.Várias etapas incrementais foram tomadas neste trabalho de pesquisa, levando a uma arquitetura final de aprendizado profundo conjugada com causalidade e detecção de anomalias. Esta abordagem inovadora apresentou resultados promissores, marcando um avanço significativo no campo da privacidade de dados. Os resultados foram considerados comparáveis ​​e até melhores do que os métodos existentes encontrados na literatura, sugerindo uma mudança potencial no cenário da privacidade de dados.Para avançar ainda mais no campo da privacidade de dados, uma biblioteca Python chamada QIDLearningLi} foi desenvolvida, que inclui várias métricas importantes para detectar quase identificadores. Esta biblioteca foi projetada para ser um recurso valioso para pesquisadores e profissionais que trabalham com privacidade de dados e anonimização. Além disso, a arquitetura final foi integrada a um aplicativo gráfico, tornando-a acessível a um amplo público. Esta ferramenta permite que os usuários apliquem o modelo a qualquer conjunto de dados, agilizando o processo de identificação e gerenciamento de quase identificadores.2024-09-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/118106https://hdl.handle.net/10316/118106TID:203827520engSimões, Sancho Amaralinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-01-24T23:19:20Zoai:estudogeral.uc.pt:10316/118106Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:11:58.714745Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Automated Data Privacy Protection using Deep Learning and Causality Techniques
Proteção automatizada de privacidade de dados usando técnicas de aprendizagem profunda e causalidade
title Automated Data Privacy Protection using Deep Learning and Causality Techniques
spellingShingle Automated Data Privacy Protection using Deep Learning and Causality Techniques
Simões, Sancho Amaral
Quasi-Identifiers Detection
Machine Learning
Causality
Deteção de quasi-identifiers
Aprendizagem de máquina
Causalidade
title_short Automated Data Privacy Protection using Deep Learning and Causality Techniques
title_full Automated Data Privacy Protection using Deep Learning and Causality Techniques
title_fullStr Automated Data Privacy Protection using Deep Learning and Causality Techniques
title_full_unstemmed Automated Data Privacy Protection using Deep Learning and Causality Techniques
title_sort Automated Data Privacy Protection using Deep Learning and Causality Techniques
author Simões, Sancho Amaral
author_facet Simões, Sancho Amaral
author_role author
dc.contributor.author.fl_str_mv Simões, Sancho Amaral
dc.subject.por.fl_str_mv Quasi-Identifiers Detection
Machine Learning
Causality
Deteção de quasi-identifiers
Aprendizagem de máquina
Causalidade
topic Quasi-Identifiers Detection
Machine Learning
Causality
Deteção de quasi-identifiers
Aprendizagem de máquina
Causalidade
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2024
dc.date.none.fl_str_mv 2024-09-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/118106
https://hdl.handle.net/10316/118106
TID:203827520
url https://hdl.handle.net/10316/118106
identifier_str_mv TID:203827520
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602612413333504