P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina

Maia, Ricardo José Menezes

P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Maia, Ricardo José Menezes
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Não Informado pela instituição
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Computação multipartidária segura Privacidade diferencial Aprendizagem federada Detecção de intrusão Aprendizagem de máquina - privacidade
Link de acesso:	http://repositorio.unb.br/handle/10482/51948
Resumo:	O direito à privacidade de dados é fundamental para indivíduos e empresas. Pode-se mencionar os benefícios dos aplicativos Machine Learning (ML) para pessoas e empresas. Por isso, é essencial encontrar soluções que garantam a privacidade de dados em aplicações que utilizam ML, especialmente em cenários onde os aplicativos ML têm requisitos de privacidade não funcionais por razões legais. No requisito de privacidade abordado neste trabalho, apenas o proprietário terá acesso aos seus dados. Problemas de privacidade podem surgir nos estágios de entrada e saída da aplicação de ML e, para ilustrar esse problema, considere Alice como o proprietário das informações e Bob como o proprietário do modelo ML.Garantir a privacidade de entrada significa impedir a exposição dos dados, preservando tanto a privacidade das informações de Alice quanto a propriedade intelectual do modelo de Bob. Garantir a privacidade de saída significa que Bob não precisa expor seu modelo em texto simples para Alice, e Alice não precisa revelar seus dados em texto simples para o modelo de Bob. Mesmo com privacidade de entrada, Alice poderia potencialmente explorar informações usadas por Bob no treinamento do modelo, e a privacidade de saída evita vazamento de dados durante o treinamento. Garantir a privacidade dos dados de entrada e saída durante a inferência e o treinamento é essencial para a proteção de privacidade de ponta a ponta em aplicativos ML. Visando solucionar o problema descrito, este trabalho tem como objetivo principal propor uma abordagem para garantir privacidade de ponta a ponta, abrangendo tanto as entradas quanto as saídas, em aplicativos de ML, denominada Privacy-Preserving Machine Learning Framework (P2MLF). Entre os objetivos secundários desta tese, destaca-se a demonstração da aplicabilidade de P2MLF, utilizando uma aplicação baseada em Secure Multi-Party Computation (MPC) para inferência segura de Malicious Software (Malware) usando modelos MultiLayer Perceptron (MLP), One-Dimensional Convolutional Neural Network (CNN1D) e Long Short-Term Memory (LSTM) treinados com Differentially-Private Stochastic Gradient Descent (DP-SGD). Outra aplicação utilizará os métodos de P2MLF para treinamento colaborativo de modelos Collaborative Intrusion Detection Systems (CIDS). Uma das contribuições do método de inferência do P2MLF é o uso de quantização float16 pós-treinamento de modelos de aprendizado profundo com MPC para obter detecção eficiente e segura de Domain Generation Algorithms (DGA). Este trabalho demonstra que a quantização aumenta significativamente a velocidade, reduzindo o tempo de execução da inferência em 23% a 42%, sem prejuízo à precisão, utilizando um protocolo de computação segura de três partes. Soluções anteriores não garantem privacidade de ponta a ponta, não fornecem garantias de Differential Privacy (DP) para resultados do modelo e assumem que os Embedding Layer (EL)s do modelo são conhecidos publicamente. O melhor protocolo em termos de precisão é executado em aproximadamente 0, 22 segundos. Por fim, a segunda contribuição destaca a avaliação dos três métodos de treinamento colaborativo propostos pelo P2MLF, com foco em escalabilidade e privacidade, aplicados ao treinamento do CIDS. Entre os métodos avaliados, o que demonstrou o melhor equilíbrio entre privacidade e escalabilidade foi aquele que combina um protocolo MPC para agregação com modelos locais diferencialmente privados, treinados por meio de aprendizagem federada. Esse método é aproximadamente 1,5 vezes mais rápido que a abordagem de maior privacidade, que utiliza exclusivamente protocolos MPC com garantias de DP.

P2MLF : um arcabouço para preservação de privacidade de ponta a ponta para aplicações de aprendizado de máquina

Registros relacionados