Q-Learning applied to games: a reward focused study

Detalhes bibliográficos
Autor(a) principal: Ferreira, Pedro Henrique de Passos
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: https://hdl.handle.net/1822/84569
Resumo: Dissertação de mestrado integrado em Informatics Engineering
id RCAP_d04e9affd854c5ea269e16e6f00ff2ac
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/84569
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Q-Learning applied to games: a reward focused studyQ-LearningPolicyMarkov processesNeural networksPolíticaCadeias de MarkovRedes neuronaisEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Informatics EngineeringQ-Learning is one of the most popular reinforcement learning algorithms. It can solve different complex problems with interesting tasks where decisions have to be made, all the while using the same algorithm with no interfer ence from the developer about specific strategies. This is achieved by processing a reward received after each decision is made. In order to evaluate the performance of Q-Learning on different problems, video games prove to be a great asset for testing purposes, as each game has its own unique mechanics and some kind of objective that needs to be learned. Furthermore, the results from testing different algorithms on the same conditions can be easily compared. This thesis presents a study on Q-Learning, from its origins and how it operates, showcasing various state of the art techniques used to improve the algorithm and detailing the procedures that have become standard when training Q-Learning agents to play video games for the Atari 2600. Our implementation of the algorithm following the same techniques and procedures is ran on different video games. The training performance is compared to the one obtained in articles that trained on the same games and attained state of the art performance. Additionally, we explored crafting new reward schemes modifying game default rewards. Various custom rewards were created and combined to evaluate how they affect performance. During these tests, we found that the use of rewards that inform about both good and bad behaviour led to better performance, as opposed to rewards that only inform about good behaviour, which is done by default in some games. It was also found that the use of more game specific rewards could attain better results, but these also required a more careful analysis of each game, not being easily transferable into other games. As a more general approach, we tested reward changes that could incentivize exploration for games that were harder to navigate, and thus harder to learn from. We found that not only did these changes improve exploration, but they also improved the performance obtained after some parameter tuning. These algorithms are designed to teach the agent to accumulate rewards. But how does this relate to game score? To assess this question, we present some preliminary experiments showing the relationship between the evolution of reward accumulation and game score.Q-Learning é um dos algoritmos mais populares de aprendizagem por reforço. Este consegue resolver vários problemas complexos que tenham tarefas interessantes e decisões que devem ser tomadas. Para todos os problemas, o mesmo algoritmo é utilizado sem haver interferência por parte do desenvolvedor sobre estratégias específicas que existam. Isto tudo é alcançado processando uma recompensa que é recebida após tomar cada decisão. Para avaliar o desempenho de Q-Learning em problemas diferentes, os jogos eletrónicos trazem grandes vantagens para fins de teste, pois cada jogo tem as suas próprias regras e algum tipo de objetivo que precisa de ser compreendido. Além disso, os resultados dos testes usando diferentes algoritmos nas mesmas condições podem ser facilmente comparados. Esta tese apresenta um estudo sobre Q-Learning, explicando as suas origens e como funciona, apresentando várias técnicas de estado da arte usadas para melhorar o algoritmo e detalhando os procedimentos padrão usados para treinar agentes de Q-Learning a jogar jogos eletrónicos da Atari 2600. A nossa implementação do algoritmo seguindo as mesmas técnicas e procedimentos é executada em diferentes jogos eletrónicos. O desempenho durante o treino é comparado ao desempenho obtido em artigos que treinaram nos mesmos jogos e atingiram resultados de estado da arte. Além disso, exploramos a criação de novos esquemas de recompensas, modificando as recompensas usadas nos jogos por defeito. Várias recompensas novas foram criadas e combinadas para avaliar como afetam o desempenho do agente. Durante estes testes, observamos que o uso de recompensas que informam tanto sobre o bom como o mau comportamento levaram a um melhor desempenho, ao contrário de recompensas que apenas informam sobre o bom comportamento, que acontece em alguns jogos usando as recompensas por defeito. Também se observou que o uso de recompensas mais específicas para um jogo pode levar a melhores resultados, mas essas recompensas também exigem uma análise mais cuidadosa de cada jogo e não são facilmente transferíveis para outros jogos. Numa abordagem mais geral, testamos mudanças de recompensas que poderiam incentivar a exploração em jogos mais difíceis de navegar e, portanto, mais difíceis de aprender. Observamos que estas mudanças não só melhoraram a exploração, como também o desempenho obtido após alguns ajustes de parâmetros. Estes algoritmos têm como objetivo ensinar o agente a acumular recompensas. Como é que isto está relacionado com a pontuação obtida no jogo? Para abordar esta questão, apresentamos alguns testes preliminares que mostram a relação entre a evolução da acumulação de recompensas e da pontuação no jogo.Fernandes, António RamiresUniversidade do MinhoFerreira, Pedro Henrique de Passos2023-01-312023-01-31T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/84569eng203262867info:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-05-11T04:43:30Zoai:repositorium.sdum.uminho.pt:1822/84569Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T14:56:30.944131Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Q-Learning applied to games: a reward focused study
title Q-Learning applied to games: a reward focused study
spellingShingle Q-Learning applied to games: a reward focused study
Ferreira, Pedro Henrique de Passos
Q-Learning
Policy
Markov processes
Neural networks
Política
Cadeias de Markov
Redes neuronais
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Q-Learning applied to games: a reward focused study
title_full Q-Learning applied to games: a reward focused study
title_fullStr Q-Learning applied to games: a reward focused study
title_full_unstemmed Q-Learning applied to games: a reward focused study
title_sort Q-Learning applied to games: a reward focused study
author Ferreira, Pedro Henrique de Passos
author_facet Ferreira, Pedro Henrique de Passos
author_role author
dc.contributor.none.fl_str_mv Fernandes, António Ramires
Universidade do Minho
dc.contributor.author.fl_str_mv Ferreira, Pedro Henrique de Passos
dc.subject.por.fl_str_mv Q-Learning
Policy
Markov processes
Neural networks
Política
Cadeias de Markov
Redes neuronais
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Q-Learning
Policy
Markov processes
Neural networks
Política
Cadeias de Markov
Redes neuronais
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado integrado em Informatics Engineering
publishDate 2023
dc.date.none.fl_str_mv 2023-01-31
2023-01-31T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/84569
url https://hdl.handle.net/1822/84569
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203262867
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833594993445437440