Análise de métodos de otimização de parâmetros e tempo de inferência para modelos de aprendizagem profunda
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso embargado |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Ciencia da Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/36910 |
Resumo: | Nos últimos anos as Redes Neurais Profundas ou Deep Neural Networks (DNNs) se tornaram o estado da arte em diversos campos de pesquisa como Visão Computacional, Processamento de Linguagem Natural, Diagnóstico por Imagem, Sistemas de Recomendação, entre outros. O surpreendente é que elas chegaram nesse ponto poucos anos após uma Rede Neural Convolucional ou Convolutional Neural Network (CNN), a AlexNet, ter ganho notoriedade ao ser a vencedora da competição da ImageNet (ILSVRC) em 2012. Além do interesse proveniente dos resultados que a AlexNet apresentou na competição, o surgimento de bibliotecas de código aberto e a publicação de artigos em conjunto com seus códigos-fonte também impulsionaram o crescimento da área. Depois da AlexNet, surgiram diversas outras arquiteturas, dentre elas destacam-se, por exemplo, redes como a VGG, a GoogleLeNet, a ResNet e a Pix-2-Pix. Acompanhando o ritmo acelerado da comunidade acadêmica, logo pesquisadores passaram a desejar implantar aplicações baseadas em CNNs em ambientes reais. Muitas dessas aplicações precisam ser processadas em dispositivos com poucos recursos computacionais e, nesse ponto, os desenvolvedores se depararam com problemas relacionados às limitações de suas plataformas. Para atender a necessidade de redes mais eficientes, surgiram diversas técnicas de otimização de arquiteturas. Essas técnicas podem ser divididas entre as que são aplicadas durante ou após o treinamento dos modelos e aquelas que são aplicadas antes do seu treinamento. No primeiro dos grupos se consideram técnicas como a Poda e a Quantização e, no segundo grupo estão técnicas como a Convolução Separável em Profundidade ou Dephtwise Separable Convolution (DSC), a Mistura de Canais da ShuffleResNet, o Deslocamento de Canais da ShiftNet e as Contrações e Expansões da SqueezeNet. Esta dissertação propõe o estudo comparativo da utilização de diferentes técnicas de otimização nos modelos CNNs. Para tal, é proposta a implementação da DSC, e dos módulos de Mistura e de Deslocamento de Canais nas redes SqueezeNet, ResNet e Pix-2-Pix. Os experimentos são conduzidos nas bases de dados CIFAR 10 e CIFAR 100, nas duas primeiras redes e com a base maps←→satellite na última rede. Os resultados obtidos formam um conjunto de referência que futuros desenvolvedores podem utilizar como guia na escolha entre as técnicas de otimização aqui investigadas. |