Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa

Dutra, Paulo Vinícius Moreira

Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Dutra, Paulo Vinícius Moreira
Orientador(a):	Fonseca Neto, Raul
Banca de defesa:	Bernardino, Heder Soares , Mendonça, Matheus Ribeiro Furtado de
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação:	Programa de Pós-graduação em Ciência da Computação
Departamento:	ICE – Instituto de Ciências Exatas
País:	Brasil
Palavras-chave em Português:	Aprendizado por reforço Geração procedural de conteúdo Aprendizado de máquina Expressive range Iniciativa mista Entropia Reinforcement learning Procedural content generation Machine learning Mixed-initiative Entropy
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA
Link de acesso:	https://doi.org/10.34019/ufjf/di/2023/00085 https://repositorio.ufjf.br/jspui/handle/ufjf/15493
Resumo:	Os jogos ao longo dos anos têm se tornado uma das principais formas de entretenimento no ambiente digital e são frequentemente utilizados em pesquisas que envolvem a área do aprendizado de máquina. Dentre as ramificações do aprendizado de máquina, temos o aprendizado por reforço que é comumente utilizado para treinar agentes a jogar jogos. Atualmente existem muitos jogos que utilizam métodos de geração procedural para gerar algum conteúdo com o objetivo de aumentar experiência do jogador. Recentemente, artigos acadêmicos buscam aproximar o aprendizado por reforço com a geração procedural de conteúdo em jogos. Este trabalho investiga como podemos aplicar a geração procedural de conteúdo com aprendizado por reforço e o design de iniciativa mista. Uma segunda questão discutida aqui é como podemos utilizar métricas para avaliar a diversidade dos cenários gerados. A proposta deste trabalho possui como ideia principal utilizar modelos de cenários fornecidos por um especialista humano em level design, para que os agentes de aprendizado por reforço o utilizem para criar cenários. Os níveis fornecidos pelo especialista são separados em segmentos ou blocos que são utilizados para compor novas estruturas de cenários. Também é proposto o uso de uma função de recompensa baseado na entropia como métrica para avaliar a diversidade dos cenários gerado pelos agentes de aprendizado por reforço. Inicialmente, treinamos o modelo proposto para três diferentes ambientes de jogos no estilo 2D Dungeon crawlers. Analisamos os resultados obtidos através do valor de entropia e demonstramos que o modelo proposto pode gerar uma ampla gama de novos níveis com uma diversidade de segmentos. Um segunda análise dos resultados é através de expressive range, para avaliar a expressividade dos níveis utilizando as métricas linearidade e leniência.

Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa

Registros relacionados