Aprendizado por reforço acelerado por heurísticas no domínio do futebol de robôs simulado

Detalhes bibliográficos
Ano de defesa: 2007
Autor(a) principal: Celiberto Jr., L. A.
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Centro Universitário da Fei, São Bernardo do Campo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.fei.edu.br/handle/FEI/437
Resumo: O aprendizado por reforço é uma técnica muito conhecida para a solução de problemas quando o agente precisa atuar com sucesso em um local desconhecido por meio de tentativa e erro. Porém, esta técnica não é eficiente o bastante para ser usada em aplicações com exigências do mundo real, devido ao tempo que o agente leva para aprender. Este trabalho apresenta o uso do Aprendizado por Reforço acelerado por heurísticas, no domínio da robótica móvel, utilizando para testes a plataforma do Robocup 2D simulação. Esta plataforma vem sendo usada cada dia mais no meio científico, a qual possiblita fazer inúmeros experimentos com jogadores virtuais, sem sofrer com problemas que comumente são encontrados em sistemas reais, além de manterem sempre as mesmas características de ambiente. O principal problema abordado neste trabalho é o uso da aceleração por heurísticas no Aprendizado por Reforço. Porém esta aceleração só é possível se primeiro for resolvido o problema de como desenvolver um sistema com Aprendizado por Reforço no Robocup 2D. Tal sistema apresenta diversos desafios, sendo o maior deles o tamanho do ambiente, o que gera grande dificuldade para um agente aprender uma política de decisões. Para solucionar este problema forma propostas formas de generalizar os estados, sem causar qualquer interferência no aprendizado. As experiências realizadas foram feitas sem o uso das heurísticas e depois com o uso das heurísticas. para a validação do trabalho, cada experimento foi repetido dez vezes, e seus resultados médios comparados através de uma análise estatística. Os resultados indicam algumas vantagens no uso das heurísticas, possibilitando a definição de algumas diretrizes importantes para a aplicação do uso de heurísticas no domínio do futebol de robôs simulado.