On modeling context from objects with a Long Short-Term Memory for indoor scene recognition

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Camila Laranjeira da Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Programa de Pós-Graduação em Ciência da Computação
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/38363
Resumo: O reconhecimento automático de cenas ainda é encarado como um desafio aberto na literatura, apesar de alguns trabalhos reportarem métricas de performance superior às dos seres humanos. Isso é especialmente válido para ambientes internos visto que eles podem ser bem reresentados pelos seus objetos, cuja variabilidade é muito alta. Objetos variam em ângulo, tamanho, textura, além de oclusões serem mais frequentes em cenas com muitos objetos. Apesar das Redes Neurais Convolutionais apresentarem uma performance excepcional para a maioria de problemas relacionados a imagens, para ambientes internos as melhores performances são atribuídas a abordagens que adicionam informação a nível de objeto, modelando a correlação entre eles. Sabendo que Redes Neurais Recorrentes foram projetadas para modelar a estrutura de uma dada sequência, recentemente surgiram pesquisas explorando suas vantagens aplicadas ao problema de reconhecimento de cenas. Apesar desses trabalhos comumente apresentarem resultados inferiores ao estado da arte, ainda há muito espaço para desvendar o potencial total de metodologias recorrentes. Portanto, este trabalho propõe representar uma imagem como uma sequência de partes de objeto, extraindo características semânticas de modelos pré treinados em grandes datasets de objetos, afim de alimentar uma rede Long Short-Term Memory bidirecional treinada para classificação de cenas. Nossa proposta de treinamento baseia-se na abordagem Muitos-Para-Muitos, tal que cada entrada possui uma predição de cena correspondente, permitindo o uso de cada predição individual para aumentar a qualidade da classificação através de uma votação ponderada das saídas. Nossa representação em forma de sequência, bem como a fusão de predições ao final ainda é pouco explorada por métodos da literatura baseado em abordagens recorrentes para reconhecimento de cenas. Nossa proposta foi avaliada em três datasets: Scene15, MIT67 e SUN397, superando o desempenho de todas as metodologias recorrentes no MIT67, um dataset completamente dedicado ao problema de ambientes internos. Enquanto os outros datasets, que misturam ambientes internos e externos, apresentaram um desafio maior para a nossa abordagem. No entanto, nós aprimoramos a performance em todos os datasets sobre os métodos mais bem sucedidos da literatura, pareando o nosso método com cada um deles através da composição de um ensemble de classificadores. Em outras palavras, uma estratégia conjunta com o nosso método se mostrou benéfica para a tarefa de reconhecimento de cenas.