Navegação Autônoma em Ambientes Dinâmicos com Interação com Humanos baseada em Aprendizado por Reforço Profundo e Visão Computacional

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Afonso, Paulo de Almeida
Orientador(a): Ferreira Júnior, Paulo Roberto
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pelotas
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/10840
Resumo: Pesquisas recentes demonstram que a navegação autônoma em ambientes dinâmicos, compartilhados com humanos, permanece como um problema em aberto. Nesse tipo de ambiente a movimentação das pessoas pode gerar obstruções, dificultando o sensoriamento e prejudicando a percepção do robô em relação à sua posição. Além disso, a incerteza do comportamento humano pode levar a situações inseguras para o robô e para as pessoas em seu entorno. Frente a esse cenário, tem se destacado o estudo de métodos baseados em aprendizado, assim como a implementação de estruturas híbridas, combinando diferentes arquiteturas e algoritmos, em busca de uma solução eficiente. Este trabalho propõe a combinação de técnicas de aprendizado por reforço profundo com técnicas de visão computacional para o desenvolvimento de uma solução capaz de permitir que o robô navegue de forma autônoma e segura em ambientes internos compartilhados com humanos, considerando as características particularmente associadas ao problema em questão. Assim, a navegação deve considerar questões de segurança, como o distanciamento entre o robô e as pessoas. Para isso, foi desenvolvida uma abordagem inédita, baseada em aprendizado por reforço profundo, que utiliza o algoritmo Deep Deterministic Policy Gradient (DDPG), combinado com técnicas de visão computacional. Foram conduzidos testes comparativos entre os algoritmos DDPG e Deep Q-Network (DQN), abordando quatro etapas, cada uma representando dois cenários diferentes do ambiente de treinamento e com níveis de complexidade superiores ao que o robô foi treinado. O DDPG demonstrou ser mais eficiente e estável que o DQN, com taxas médias de sucesso superiores em todas as etapas, demonstrando melhor capacidade de generalização e apresentando resultados consistentemente melhores. Por outro lado, o DQN teve dificuldades em evitar colisões e obteve taxas médias de sucesso significativamente mais baixas. Essas descobertas destacam a superioridade do DDPG e demonstram que a solução proposta é promissora, contribuindo para o avanço da pesquisa na área, possibilitando a análise de experimentos em ambiente simulado e realização de testes para posterior implantação de sistemas robóticos em cenários do mundo real.