Processos de aprendizagem em modelos agent-based : os algoritmos Reinforcement Learning aplicados a teoria dos jogos

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: ANDRADE, Adryenne Cristinni de Oliveira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Engenharia de Producao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/34407
Resumo: A partir da modelagem baseada em agentes, contextos em diferentes níveis de complexidade podem ser simulados. Esta técnica de análise que é principalmente desenvolvida levando em consideração a heterogeneidade dos indivíduos, quando utilizada em conjunto com algoritmos de aprendizagem por reforço, possibilita resultados precisos e mais próximos dos encontrados em contextos reais. Isso ocorre pois o comportamento estratégico é introduzido ao modelo de simulação por meio dos algoritmos de aprendizagem, possibilitando que o agente atue de forma a maximizar sua utilidade e satisfação. Ao aplicar estas abordagens ao estudo de problemas-padrão da teoria dos jogos, que apresentam equilíbrios pautados em racionalidade ilimitada, verificar-se-á a influência dos processos de aprendizagem tanto no comportamento individual do agente, quanto no resultado do jogo como um todo. Os algoritmos de aprendizagem por reforço, Roth-Erev RL (RE), Modified Roth-Erev RL (MRE) e Variant Roth-Erev - RL (VRE) foram incorporados ao comportamento de apenas um dos agentes que compõem a situação de conflito, com o objetivo de avaliar a capacidade de mapeamento de resposta, proporcionada por tais algoritmos, uma vez que o agente que não aprende apresenta dois diferentes comportamentos: fixo ou aleatório. Os parâmetros de experimentação e esquecimento, vieses psicológicos presentes nos algoritmos, sofreram variações buscando identificar possíveis influências nos processos de aprendizagem. Com isso, o objetivo do presente estudo é identificar possíveis alterações nos resultados canônicos conhecidos para os jogos do Dilema dos Prisioneiros, Batalha dos Sexos e Chicken Game, diante dos processos de aprendizagem incorporados ao modelo de simulação bem como da suposição de racionalidade limitada. Os três algoritmos foram capazes de proporcionar comportamento estratégico, ao agente que aprende, nos cenários em que os parâmetros de experimentação e esquecimento não foram considerados. Ao atribuir valores positivos a ambos os parâmetros, variações nos comportamentos puderam ser observadas. De um modo geral, o algoritmo Roth-Erev RL demonstrou maior robustez, quando incorporado a este tipo de estudo, ao confirmar os resultados canônicos determinados para cada um dos jogos clássicos testados, mesmo em resposta às variações de ambos os parâmetros. Já os algoritmos MRE e VRE demonstraram-se sensíveis às variações feitas no parâmetro de experimentação, resultando em comportamentos não correspondentes com o melhor cenário que poderia ser alcançado na situação de conflito, impossibilitando que o agente dotado de aprendizado realizasse o mapeamento das ações do agente oponente. Constatou-se que há uma escassez de trabalhos, na literatura, utilizando em conjunto, a Modelagem Baseada em Agentes, os algoritmos de aprendizagem e a teoria dos jogos, para estudar, sob diferentes perspectivas, o comportamento estratégico em ambiente de simulação, demonstrando dessa forma a contribuição deste estudo e uma área com alto potencial de exploração.