Descoberta de Options Multi-tarefas: Um estudo em StarCraft II

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Gomes, Eric Muszalska Claro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-01062023-160931/
Resumo: Este trabalho propõe e valida uma arquitetura para resolver problemas complexos em jogos de estratégia em tempo real, como o Starcraft II, utilizando o conceito hierárquico temporal de option. A arquitetura é baseada em uma abordagem de descoberta de options (option discovery) utilizando aprendizado por imitação para abstrair meta-políticas e políticas intra-options comuns a vários agentes. A validação foi realizada tanto em minigames, quanto em cenários criados especificamente para este estudo, que visam analisar o componente temporal do problema. Os resultados mostraram que a arquitetura proposta foi capaz de obter resultados próximos aos obtidos pelo agente padrão Reaver em alguns dos minigames, além de ser capaz de aprender uma única política genérica que se aplicaria a todos os minigames. Além disso, foi possível observar o comportamento das options para cada minigame no agente genérico, o que permitiu uma melhor compreensão da arquitetura proposta. Foi possível observar que a arquitetura Multi-Level Discovery of Deep Options (MLDDO) apresentou resultados significativos para a descoberta de options utilizando aprendizado por imitação. Esse trabalho também analisou o impacto da separabilidade de estados no MLDDO, comparando resultados do aprendizado com uma implementação específica para cada diferente cenário separável pelo espaço e com o aprendizado de uma única implementação generalista que busca aprender diferentes objetivos em cenários indistinguíveis pelo estado.