Reconhecimento de veículos em imagens coloridas utilizando máquinas de Boltzmann profundas e projeção bilinear

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Santos, Daniel Felipe Silva [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/151478
Resumo: Neste trabalho é proposto um método para reconhecer veículos em imagens coloridas baseado em uma rede neural Perceptron Multicamadas pré-treinada por meio de técnicas de aprendizado em profundidade, sendo uma das técnicas composta por Máquinas de Boltzmann Profundas e projeção bilinear e a outra composta por Máquinas de Boltzmann Profundas Multinomiais e projeção bilinear. A proposição deste método justifica-se pela demanda cada vez maior da área de Sistemas de Transporte Inteligentes. Para se obter um reconhecedor de veículos robusto, a proposta é utilizar o método de treinamento inferencial não-supervisionado Divergência por Contraste em conjunto com o método inferencial Campos Intermediários, para treinar múltiplas instâncias das redes profundas. Na fase de pré-treinamento local do método proposto são utilizadas projeções bilineares para reduzir o número de nós nas camadas da rede. A junção das estruturas em redes profundas treinadas separadamente forma a arquitetura final da rede neural, que passa por uma etapa de pré- treinamento global por Campos Intermediários. Na última etapa de treinamentos a rede neural Perceptron Multicamadas (MLP) é inicializada com os parâmetros pré-treinados globalmente e a partir deste ponto, inicia-se um processo de treinamento supervisionado utilizando gradiente conjugado de segunda ordem. O método proposto foi avaliado sobre a base BIT-Vehicle de imagens frontais de veículos coletadas de um ambiente de tráfego real. Os melhores resultados obtidos pelo método proposto utilizando rede profunda multinomial foram de 81, 83% de acurácia média na versão aumentada da base original e 91, 10% na versão aumentada da base combinada (Carros, Caminhões e Ônibus). Para a abordagem de redes profundas não multinomiais os melhores resultados foram de 81, 42% na versão aumentada da base original e 91, 13% na versão aumentada da base combinada. Com a aplicação da projeção bilinear, houve um decréscimo considerável nos tempos de treinamento das redes profundas multinomial e não multinomial, sendo que no melhor caso o tempo de execução do método proposto foi 5, 5 vezes menor em comparação com os tempos das redes profundas sem aplicação de projeção bilinear.