Classificação baseada em espaços de camadas convolucionais de redes CNNs densas.

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Vinagreiro, Michel Andre Lima
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-04052023-091217/
Resumo: Muitos sistemas utilizados em tarefas de classificação de imagens utilizam-se de redes neurais convolucionais profundas. Contudo, é requerida a utilização de plataformas de alto poder computacional para treinar e utilizar estes algoritmos. Buscando reduzir os esforços computacionais e acelerar o processamento desses algorítmos, tem sido apresentadas na literatura muitas técnicas de redução de tamanho de arquiteturas de redes neurais convolucionais profundas. Apesar dos grandes esforços e avanços neste caminho, os métodos atuais necessitam de constantes retreinamentos e são iterativos, muitas vezes não alcançando os resultados de forma satisfatória, sendo necessário o desenvolvimento de novos métodos. O objetivo deste trabalho, diferentemente dos métodos de redução mais difundidos, é extrair a capacidade de classificação de grandes arquiteturas de redes neurais convolucionais profundas de forma otimizada e utiliza-la para realizar classificações de forma acelerada. Este trabalho apresenta uma abordagem baseada em um espaço de características multilinear que se utiliza do conhecimento extraído de grandes arquiteturas de redes neurais convolucionais profundas. A metodologia proposta utiliza a rede VGG-16 para geração de mapas de características. Quando o processo de treinamento da rede termina, os mapas de características gerados pelos kernels são utilizados para encontrar um novo espaço de características. Os espaços são utilizados para projetar novas amostras e as classificar utilizando classificadores de baixa complexidade, sendo que tanto a arquitetura VGG-16, quanto seus respectivos pesos são descartados após o término de todos os processos. Esta abordagem dispensa a necessidade de podar ou retreinar arquiteturas profundas para classificar uma nova amostra, algo que a torna única. O novo método reduz significativamente o tempo geral de classificação comparado à rede VGG-16, apresentando mínimas perdas de acurácia comparadas ao desempenho da rede. Os experimentos para testar a eficácia do método foram realizados utilizando-se os bancos de imagens Vehicle Image Database e o conjunto de imagens German Traffic Sign Recognition Benchmark. Os resultados da aplicação da metodologia proposta alcançaram a aceleração do tempo de classificação para todos os conjuntos de imagens. No conjunto de imagens Vehicle Image Database, a rede VGG-16 atingiu acurácia de 98,8% enquanto a metodologia proposta acelerou o tempo de classificação em 16,9 vezes, atingindo acurácia de 97,73%. No conjunto de imagens German Traffic Sign Recognition Benchmark a rede VGG-16 atingiu acurácia de 98.6% enquanto a metodologia proposta atingiu 97,84% com aceleração de 16,8 vezes. Embora os resultados alcançados sejam promissores, o método necessita de alta ocupação de memória para a extração de autovetores e vetores média.