Automated Data Privacy Protection using Deep Learning and Causality Techniques
| Main Author: | |
|---|---|
| Publication Date: | 2024 |
| Format: | Master thesis |
| Language: | eng |
| Source: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| Download full: | https://hdl.handle.net/10316/118106 |
Summary: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
| id |
RCAP_adc4ca6ecc2dfa487e47c44c23080423 |
|---|---|
| oai_identifier_str |
oai:estudogeral.uc.pt:10316/118106 |
| network_acronym_str |
RCAP |
| network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository_id_str |
https://opendoar.ac.uk/repository/7160 |
| spelling |
Automated Data Privacy Protection using Deep Learning and Causality TechniquesProteção automatizada de privacidade de dados usando técnicas de aprendizagem profunda e causalidadeQuasi-Identifiers DetectionMachine LearningCausalityDeteção de quasi-identifiersAprendizagem de máquinaCausalidadeDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaThe digital world is flooded with massive amounts of data, driven by the rapid expansion of digital interactions and transactions. This surge in data generation has fueled higher demands for robust privacy regulation mechanisms to protect individuals' sensitive information.In response to these challenges, there is a growing need for more sophisticated and scalable privacy algorithms capable of addressing the complexities of diverse datasets. This demand is particularly pronounced in the domain of quasi-identifiers: seemingly inoffensive attributes that, when combined, pose a significant threat to individual privacy, subjecting the entity in question to re-identification attacks. The identification of quasi-identifiers is a crucial step in anonymization processes that is often performed manually.The motivation behind this research stems from the initiative to develop a unified technique capable of detecting quasi-identifiers within a given tabular \\dataset. Such a technique has not been accomplished due to the high variability of the nature of the datasets and the intrinsic complexity of the quasi-identifiers problem.Various incremental steps were taken in this research work, leading to a final deep-learning architecture conjugated with causality and anomaly detection. This innovative approach presented promising results, marking a significant advancement in the field of data privacy. The results were found to be comparable to and even better than existing methods found in the literature, suggesting a potential shift in the landscape of data privacy. To further advance the field of data privacy, a Python library named QIDLearningLi} was developed, which includes several key metrics for detecting quasi-identifiers. This library is designed to be a valuable resource for researchers and practitioners working in data privacy and anonymization. Additionally, the final architecture was integrated into a graphical application, making it accessible to a wide audience. This tool allows users to apply the model to any dataset, streamlining the process of identifying and managing quasi-identifiers.O mundo digital é inundado com enormes quantidades de dados, impulsionado pela rápida expansão de interações e transações digitais. Esse aumento na geração de dados alimentou maiores demandas por mecanismos robustos de regulamentação de privacidade para proteger as informações confidenciais dos indivíduos.Em resposta a esses desafios, há uma necessidade crescente de algoritmos de privacidade mais sofisticados e escaláveis, capazes de abordar as complexidades de diversos conjuntos de dados. Essa demanda é particularmente pronunciada no domínio de quase-identificadores: atributos aparentemente inofensivos que, quando combinados, representam uma ameaça significativa à privacidade individual, sujeitando a entidade em questão a ataques de reidentificação. A identificação de quase-identificadores é uma etapa crucial nos processos de anonimização que geralmente são realizados manualmente.A motivação por trás desta pesquisa decorre da iniciativa de desenvolver uma técnica unificada capaz de detectar quase-identificadores dentro de um determinado conjunto de dados tabular \\. Tal técnica não foi realizada devido à alta variabilidade da natureza dos conjuntos de dados e à complexidade intrínseca do problema dos quase-identificadores.Várias etapas incrementais foram tomadas neste trabalho de pesquisa, levando a uma arquitetura final de aprendizado profundo conjugada com causalidade e detecção de anomalias. Esta abordagem inovadora apresentou resultados promissores, marcando um avanço significativo no campo da privacidade de dados. Os resultados foram considerados comparáveis e até melhores do que os métodos existentes encontrados na literatura, sugerindo uma mudança potencial no cenário da privacidade de dados.Para avançar ainda mais no campo da privacidade de dados, uma biblioteca Python chamada QIDLearningLi} foi desenvolvida, que inclui várias métricas importantes para detectar quase identificadores. Esta biblioteca foi projetada para ser um recurso valioso para pesquisadores e profissionais que trabalham com privacidade de dados e anonimização. Além disso, a arquitetura final foi integrada a um aplicativo gráfico, tornando-a acessível a um amplo público. Esta ferramenta permite que os usuários apliquem o modelo a qualquer conjunto de dados, agilizando o processo de identificação e gerenciamento de quase identificadores.2024-09-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/118106https://hdl.handle.net/10316/118106TID:203827520engSimões, Sancho Amaralinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-01-24T23:19:20Zoai:estudogeral.uc.pt:10316/118106Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:11:58.714745Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
| dc.title.none.fl_str_mv |
Automated Data Privacy Protection using Deep Learning and Causality Techniques Proteção automatizada de privacidade de dados usando técnicas de aprendizagem profunda e causalidade |
| title |
Automated Data Privacy Protection using Deep Learning and Causality Techniques |
| spellingShingle |
Automated Data Privacy Protection using Deep Learning and Causality Techniques Simões, Sancho Amaral Quasi-Identifiers Detection Machine Learning Causality Deteção de quasi-identifiers Aprendizagem de máquina Causalidade |
| title_short |
Automated Data Privacy Protection using Deep Learning and Causality Techniques |
| title_full |
Automated Data Privacy Protection using Deep Learning and Causality Techniques |
| title_fullStr |
Automated Data Privacy Protection using Deep Learning and Causality Techniques |
| title_full_unstemmed |
Automated Data Privacy Protection using Deep Learning and Causality Techniques |
| title_sort |
Automated Data Privacy Protection using Deep Learning and Causality Techniques |
| author |
Simões, Sancho Amaral |
| author_facet |
Simões, Sancho Amaral |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Simões, Sancho Amaral |
| dc.subject.por.fl_str_mv |
Quasi-Identifiers Detection Machine Learning Causality Deteção de quasi-identifiers Aprendizagem de máquina Causalidade |
| topic |
Quasi-Identifiers Detection Machine Learning Causality Deteção de quasi-identifiers Aprendizagem de máquina Causalidade |
| description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-09-11 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/10316/118106 https://hdl.handle.net/10316/118106 TID:203827520 |
| url |
https://hdl.handle.net/10316/118106 |
| identifier_str_mv |
TID:203827520 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
| instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| instacron_str |
RCAAP |
| institution |
RCAAP |
| reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| repository.mail.fl_str_mv |
info@rcaap.pt |
| _version_ |
1833602612413333504 |