[pt] APERFEIÇOANDO MODELOS DE SLAM VISUAIS PELA COMBINAÇÃO DA ESTIMAÇÃO DE PROFUNDIDADE, SEGMENTAÇÃO SEMÂNTICA E REMOÇÃO DE OBJETOS DINÂMICOS USANDO MODELOS FUNDACIONAIS VISUAIS

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: PEDRO THIAGO CUTRIM DOS SANTOS
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68676&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68676&idi=2
http://doi.org/10.17771/PUCRio.acad.68676
Resumo: [pt] O objetivo de um sistema SLAM (Localização e Mapeamento Simultâneos) é estimar a trajetória da câmera no espaço enquanto reconstrói um mapa preciso do ambiente ao redor. Sua definição pode ser explicada em duas partes: a primeira, mapear um ambiente não conhecido, e a segunda, realizar a localização do agente neste ambiente através dos sensores disponíveis. Dentre os diferentes tipos de sensores, câmeras possuem um custo menor de operação ao mesmo tempo que fornecem uma quantidade rica de informações do ambiente que permitem um reconhecimento e mapeamento mais preciso. Devido a isso, soluções onde apenas o uso da câmera é utilizado, chamado de Sistemas SLAM Visuais, são de grande interesse. Este trabalho propõe a adaptação de um Sistema SLAM que necessite apenas de uma câmera como sensor principal e que use Visual Foundation Models para gerar imagens de profundidade que auxiliem na robustez do mapeamento e localização no ambiente. Além disso, tal sistema também deve ser capaz de identificar elementos dinâmicos no ambiente e removê-los do mapa, através do uso de modelos de visão computacional. E por fim, deve ser viável para aplicações em tempo real.