Poda estruturada de redes neurais convolucionais e a hipótese do bilhete de loteria.
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/25035 |
Resumo: | A Hipótese do Bilhete de Loteria formula que é possível encontrar sub-redes(bilhetes vencedores) que apresentam acurácia igual ou superior à rede não podada e alta capacidade de generalização, quando obtida a partir de uma rede neural super-parametrizada. Uma etapa do algoritmo que implementa a hipótese requer o rebobinamento dos pesos da rede podada para seus valores iniciais,normalmente valores aleatórios.Variações mais recentes dessa etapa podem envolver (i) redefinir os pesos para os valores que eles tinham em uma época inicial do treinamento da rede não podada (rebobinamento dos pesos), ou (ii) manter os pesos finais do treinamento e redefinir apenas a taxa de aprendizado (rebobinamento da taxa de aprendizagem). Apesar de algumas pesquisas terem investigado as variações acima,a maioria em poda não estruturada (poda de pesos), não há,com base na revisão bibliográfica desta pesquisa, avaliações existentes focadas em poda estruturada (poda de neurônios ou filtros) para as variantes de poda local e global. Além disso, as pesquisas relacionadas à hipótese do bilhete de loteria utilizam somente a magnitude dos pesos como critério de seleção dos elementos a serem podados. Neste contexto, esta pesquisa apresenta novas evidências empíricas de que é possível obter bilhetes vencedores ao realizar a poda estruturada de redes neurais convolucionais e propõe a utilização de um critério de poda baseado na técnica de explicabilidade DeepLIFT como alternativa à magnitude dos pesos. Para isso,configurou-se um experimento utilizando a rede VGG16 treinada nos conjuntos de dados CIFAR-10 e CIFAR-100 e comparou-se com redes(podadas em diferentes níveis de compressão) obtidas pelos métodos de rebobinamento dos pesos e rebobinamento da taxa de aprendizagem, nos contextos de poda local (orientada à camada) e poda global (independente da camada). Usou-se a rede não podada como base para as comparações e também comparou-se as redes podadas resultantes com suas versões treinadas com pesos inicializados aleatoriamente. Além disso,ainda avaliou-se o impacto da substituição da magnitude dos pesos pelo método DeepLIFT em redes podadas de forma global com a abordagem de rebobinamento da taxa de aprendizagem. De modo geral, ao utilizar a poda global, o rebobinamento dos pesos produziu alguns bilhetes vencedores (limitados a baixos níveis de poda) e com desempenho igual ou pior em comparação com a inicialização aleatória. O rebobinamento da taxa de aprendizagem, ao utilizar a poda global,produziu os melhores resultados dentre as abordagens de rebobinamento, uma vez que encontrou bilhetes vencedores em diferentes níveis de poda, inclusive para níveis mais agressivos. Além disso, as redes podadas usando o método DeepLIFT como critério de poda, ao final das iterações de poda, apresentaram acurácia média maior que as redes podadas usando a magnitude dos pesos,além de maior estabilidade e tolerância a níveis de poda mais agressivos. Por fim, foi possível verificar uma redução significativa no tempo de inferência (speedup de 5 em batches de tamanho 1 e de 4 em batches de tamanho 128) das redes podadas quando executadas em CPU, produzindo assim redes mais adequadas à execução em dispositivos com poucos recursos computacionais. |