Generative models for open set image recognition

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Marcos Felipe Vendramini Carvalho
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/49031
Resumo: Os métodos de classificação de imagens geralmente são treinados para realizar previsões levando em consideração um grupo predefinido de classes conhecidas. Problemas do mundo real, no entanto, podem não permitir um conhecimento completo de todas as entrada e rótulos do espaço, fazendo com que as falhas no reconhecimento seja um problema para o aprendizado visual profundo. Os métodos de reconhecimento de conjunto aberto são caracterizados pela capacidade de identificar corretamente as entradas de classes conhecidas e desconhecidas. Neste contexto, propomos GeMOS: módulos de reconhecimento de conjunto aberto simples que podem ser anexados a Redes Neurais Profundas pré-treinadas para reconhecimento visual. O framework GeMOS emparelha redes neurais convolucionais pré-treinadas com modelos generativos para introduzir o reconhecimento de conjunto aberto através da extração de pontuações para cada amostra, permitindo o reconhecimento de falha em tarefas de reconhecimento de objeto. Conduzimos uma avaliação completa do método proposto em comparação com algoritmos do estado-da-arte de conjunto aberto. Nesses testes foram utilizados diferentes datasets como dentro e fora da distribuição, onde, com o MNIST dentro da distribuição, atingimos o F1-score de 0.91 enquanto o melhor baseline do teste referente atingiu 0.85, e, para o CIFAR10 dentro da distribuição, atingimos o F1-score de 0.93 enquanto o melhor baseline do teste referente atingiu 0.81. Também foram realizados teste utilizando um mesmo dataset como dentro e fora da distribuição, um caso mais complexo que mostrou a dependência do método a acurácia das redes pré treinadas. Os resultados mostraram que o GeMOS compete com modelos mais complexos e caros e em muitos casos os superam. Para os trabalhos futuros propomos inicialmente aplicar o método a outros domínios e a problemas do mundo real, e modificar o método para outras tarefas de visão computacional.