Compression of activation signals from partitioned deep neural networks exploring temporal correlation

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: SILVA, Lucas Damasceno lattes
Outros Autores: https://orcid.org/0000-0002-1078-5070
Orientador(a): KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal do Pará
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Instituto de Tecnologia
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufpa.br/jspui/handle/2011/16859
Resumo: O uso de redes neurais artificiais para detecção de objetos, juntamente com avanços na pesquisa de 6G e IoT, desempenha um papel importante em aplicações como monitoramento de estruturas por drones, operações de busca e resgate, e implantação em plataformas de hardware como FPGAs. No entanto, um desafio fundamental na implementação dessas redes em tais hardwares é a necessidade de economizar recursos computacionais. Apesar dos avanços substanciais na capacidade computacional, implementar dispositivos com recursos amplos continua sendo um desafio. Como solução, técnicas de particionamento e compressão de redes neurais, bem como compressão de sinais de ativação (ou feature maps), foram desenvolvidas. Este trabalho propõe um sistema que particiona modelos de redes neurais para detecção de objetos em vídeos, alocando parte da rede em um end device e o restante em um servidor na nuvem. O sistema também comprime os mapas de características gerados pelas últimas camadas no dispositivo final, explorando a correlação temporal, o que possibilita um esquema de compressão preditiva. Essa abordagem permite que redes neurais sejam incorporadas em dispositivos de baixo consumo de energia, respeitando os limites computacionais do dispositivo, as restrições de taxa de transmissão do canal de comunicação entre o dispositivo e o servidor, e os requisitos de precisão da rede. Experimentos conduzidos em modelos de redes neurais pré-treinadas mostram que o sistema proposto pode reduzir significativamente a quantidade de dados a serem armazenados ou transmitidos ao explorar a correlação temporal, facilitando a implantação dessas redes em dispositivos com poder computacional limitado.