Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
Ano de defesa: | 2023 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Juiz de Fora (UFJF)
|
Programa de Pós-Graduação: |
Programa de Pós-graduação em Ciência da Computação
|
Departamento: |
ICE – Instituto de Ciências Exatas
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | https://doi.org/10.34019/ufjf/di/2023/00085 https://repositorio.ufjf.br/jspui/handle/ufjf/15493 |
Resumo: | Os jogos ao longo dos anos têm se tornado uma das principais formas de entretenimento no ambiente digital e são frequentemente utilizados em pesquisas que envolvem a área do aprendizado de máquina. Dentre as ramificações do aprendizado de máquina, temos o aprendizado por reforço que é comumente utilizado para treinar agentes a jogar jogos. Atualmente existem muitos jogos que utilizam métodos de geração procedural para gerar algum conteúdo com o objetivo de aumentar experiência do jogador. Recentemente, artigos acadêmicos buscam aproximar o aprendizado por reforço com a geração procedural de conteúdo em jogos. Este trabalho investiga como podemos aplicar a geração procedural de conteúdo com aprendizado por reforço e o design de iniciativa mista. Uma segunda questão discutida aqui é como podemos utilizar métricas para avaliar a diversidade dos cenários gerados. A proposta deste trabalho possui como ideia principal utilizar modelos de cenários fornecidos por um especialista humano em level design, para que os agentes de aprendizado por reforço o utilizem para criar cenários. Os níveis fornecidos pelo especialista são separados em segmentos ou blocos que são utilizados para compor novas estruturas de cenários. Também é proposto o uso de uma função de recompensa baseado na entropia como métrica para avaliar a diversidade dos cenários gerado pelos agentes de aprendizado por reforço. Inicialmente, treinamos o modelo proposto para três diferentes ambientes de jogos no estilo 2D Dungeon crawlers. Analisamos os resultados obtidos através do valor de entropia e demonstramos que o modelo proposto pode gerar uma ampla gama de novos níveis com uma diversidade de segmentos. Um segunda análise dos resultados é através de expressive range, para avaliar a expressividade dos níveis utilizando as métricas linearidade e leniência. |