Uso de aprendizado por reforço para otimização do controle de caminhada de um robô móvel humanóide

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Silva, I. J.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Centro Universitário FEI, São Bernardo do Campo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.fei.edu.br/handle/FEI/328
Resumo: Os atuais robôs humanoides ainda possuem instabilidade no andar dinâmico comparado com o andar humano. Apesar de existirem robôs móveis com rodas que possuem uma boa estabilidade, a busca pelo desenvolvimento dos robôs humanoides se dá pelo fato de que a locomoção com pernas é a melhor forma de locomoção em ambientes com descontinuidades no piso. Existem várias técnicas de geração de caminhada que vêm sendo desenvolvidas para robôs humanoides, porém, até o momento, nenhuma delas apresentou resultados satisfatórios se comparados com o andar humano. No entanto, sabe-se que há restrições construtivas, porque os robôs humanoides atuais, para se assemelharem aos seres humanos, precisam ser construídos com dispositivos e preceitos análogos a estrutura física do corpo humano. No robô humanoide se usa metais ao invés de ossos, motores no lugar de músculos, fios no lugar dos nervos e microprocessadores no lugar do cérebro, com isso, o resultado operacional acaba sendo diferente se comparado ao ser humano. Ao longo dos anos, várias propostas vêm sendo apresentadas para solucionar a questão da estabilidade dos robôs humanoides durante a caminhada. Algumas propostas apresentaram o aprendizado por reforço como solução, entretanto cada uma delas apresentou diferentes formas de implementação do aprendizado com diversos algoritmos. Seguindo essa linha de pesquisa, este trabalho propõe um algoritmo de aprendizado por reforço com generalizações temporais para otimizar os valores dos parâmetros do sistema de controle do andar em um robô humanoide, buscando um andar rápido e estável. Foram realizados experimentos simulado. Os resultados experimentais permitiram concluir que o algoritmo proposto foi capaz de aprender quais são os melhores valores de parâmetros do gerador de caminhada, através da observação do desempenho da caminhada executada pelo robô humanoide.