On modeling context from objects with a Long Short-Term Memory for indoor scene recognition
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Minas Gerais
Brasil ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO Programa de Pós-Graduação em Ciência da Computação UFMG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://hdl.handle.net/1843/38363 |
Resumo: | O reconhecimento automático de cenas ainda é encarado como um desafio aberto na literatura, apesar de alguns trabalhos reportarem métricas de performance superior às dos seres humanos. Isso é especialmente válido para ambientes internos visto que eles podem ser bem reresentados pelos seus objetos, cuja variabilidade é muito alta. Objetos variam em ângulo, tamanho, textura, além de oclusões serem mais frequentes em cenas com muitos objetos. Apesar das Redes Neurais Convolutionais apresentarem uma performance excepcional para a maioria de problemas relacionados a imagens, para ambientes internos as melhores performances são atribuídas a abordagens que adicionam informação a nível de objeto, modelando a correlação entre eles. Sabendo que Redes Neurais Recorrentes foram projetadas para modelar a estrutura de uma dada sequência, recentemente surgiram pesquisas explorando suas vantagens aplicadas ao problema de reconhecimento de cenas. Apesar desses trabalhos comumente apresentarem resultados inferiores ao estado da arte, ainda há muito espaço para desvendar o potencial total de metodologias recorrentes. Portanto, este trabalho propõe representar uma imagem como uma sequência de partes de objeto, extraindo características semânticas de modelos pré treinados em grandes datasets de objetos, afim de alimentar uma rede Long Short-Term Memory bidirecional treinada para classificação de cenas. Nossa proposta de treinamento baseia-se na abordagem Muitos-Para-Muitos, tal que cada entrada possui uma predição de cena correspondente, permitindo o uso de cada predição individual para aumentar a qualidade da classificação através de uma votação ponderada das saídas. Nossa representação em forma de sequência, bem como a fusão de predições ao final ainda é pouco explorada por métodos da literatura baseado em abordagens recorrentes para reconhecimento de cenas. Nossa proposta foi avaliada em três datasets: Scene15, MIT67 e SUN397, superando o desempenho de todas as metodologias recorrentes no MIT67, um dataset completamente dedicado ao problema de ambientes internos. Enquanto os outros datasets, que misturam ambientes internos e externos, apresentaram um desafio maior para a nossa abordagem. No entanto, nós aprimoramos a performance em todos os datasets sobre os métodos mais bem sucedidos da literatura, pareando o nosso método com cada um deles através da composição de um ensemble de classificadores. Em outras palavras, uma estratégia conjunta com o nosso método se mostrou benéfica para a tarefa de reconhecimento de cenas. |