Utilizando Spatial Transformer Networks no agrupamento de imagens baseado em Deep Adaptive Clustering

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: SOUZA, Thiago Vinicius Machado de
Orientador(a): ZANCHETTIN, Cleber
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/35371
Resumo: O agrupamento de imagens é uma tarefa importante e desafiadora na aprendizagem de máquina. Como na maioria das áreas de processamento de imagens, as últimas melhorias foram obtidas a partir de modelos baseados em aprendizagem profunda. No entanto, os métodos clássicos de aprendizagem profunda têm dificuldade para lidar com transformações espaciais nas imagens de entrada como, por exemplo, escala e rotação. Nesta dissertação, propomos o uso de técnicas de atenção visual para reduzir este problema em métodos de agrupamento profundo de imagens. Nossa hipótese de pesquisa sugere que adicionar camadas de atenção visual em arquiteturas de deep image clustering pode tornar os modelos robustos a pequenas variações espaciais nos dados de entrada da rede e melhorar seu desempenho. Avaliamos a combinação de um modelo de agrupamento profundo chamado Deep Adaptive Clustering (DAC) com o módulo de atenção visual Spatial Transformer Networks (STN). O modelo proposto é avaliado nos conjuntos de dados MNIST e FashionMNIST e superou o modelo de referência nos experimentos realizados. Adicionalmente realizamos diversos experimentos qualitativos para investigar o funcionamento da arquitetura proposta.