[pt] APERFEIÇOANDO MODELOS DE SLAM VISUAIS PELA COMBINAÇÃO DA ESTIMAÇÃO DE PROFUNDIDADE, SEGMENTAÇÃO SEMÂNTICA E REMOÇÃO DE OBJETOS DINÂMICOS USANDO MODELOS FUNDACIONAIS VISUAIS
Ano de defesa: | 2024 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68676&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=68676&idi=2 http://doi.org/10.17771/PUCRio.acad.68676 |
Resumo: | [pt] O objetivo de um sistema SLAM (Localização e Mapeamento Simultâneos) é estimar a trajetória da câmera no espaço enquanto reconstrói um mapa preciso do ambiente ao redor. Sua definição pode ser explicada em duas partes: a primeira, mapear um ambiente não conhecido, e a segunda, realizar a localização do agente neste ambiente através dos sensores disponíveis. Dentre os diferentes tipos de sensores, câmeras possuem um custo menor de operação ao mesmo tempo que fornecem uma quantidade rica de informações do ambiente que permitem um reconhecimento e mapeamento mais preciso. Devido a isso, soluções onde apenas o uso da câmera é utilizado, chamado de Sistemas SLAM Visuais, são de grande interesse. Este trabalho propõe a adaptação de um Sistema SLAM que necessite apenas de uma câmera como sensor principal e que use Visual Foundation Models para gerar imagens de profundidade que auxiliem na robustez do mapeamento e localização no ambiente. Além disso, tal sistema também deve ser capaz de identificar elementos dinâmicos no ambiente e removê-los do mapa, através do uso de modelos de visão computacional. E por fim, deve ser viável para aplicações em tempo real. |