Mitigando o impacto de dados non-IID em federated learning com entropia

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Orlandi, Fernanda Cavalheiro
Orientador(a): Geyer, Claudio Fernando Resin
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/267028
Resumo: Algoritmos de Machine Learning (ML) possibilitam processar um conjunto de dados de entradas para gerar coeficientes que ajustem a saída a um resultado previamente conhecido, como menor erro possível, fazendo com que seja possível reconhecer e extrair padrões de um grande volume de dados (Big Data). Isso permite construir um modelo de aprendizagem para tomada de decisão. Essa aprendizagem pode ser de forma colaborativa, onde a aprendizagem envolve grupos de indivíduos trabalhando juntos para resolver determinado problema. Essa abordagem chama-se Collaborative Learning e demonstra desempenho bastante otimizado em relação aos métodos tradicionais de ML em várias aplicações, como por exemplo, compreensão de imagem e reconhecimento de voz. Também é possível ter uma aprendizagem de máquina em ambiente federado, mais conhecido como Federated Learning, onde os dispositivos compartilham dados não sensíveis entre si, como seus parâmetros, ajustando o modelo no dispositivo e o modelo global, através de hiperparâmetros. No entanto, um modelo de Federated Learning pode sofrer com dados non-IID (não independentes e identicamente distribuídos), que podem ser dados heterogêneos, surgindo de diversas fontes de dados e dispositivos. Os dados non-IID causam baixa convergência para algoritmos de ML e alto consumo de energia, aumentando também a largura de banda. Um dos conceitos da Teoria da Informação, que é a entropia, serve para medir o grau de aleatoriedade dos dados. Este trabalho propõe um modelo de Federated Learning que mitiga o impacto dos dados non-IID por meio de um algoritmo FedAvg-BE, que fornece aprendizado federado com a avaliação de entropia de borda para selecionar dados com melhor qualidade, em um ambiente de dados non-IID. A avaliação do desempenho do algoritmo, no melhor caso, demonstra 26% de economia de tempo de execução do modelo proposto em configurações de FL para datasets conhecidos da literatura. Os resultados dos 115 experimentos realizados neste trabalho demonstram a viabilidade do modelo proposto para mitigar o impacto dos dados non-IID.