Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.

Augusto, Sergio Ribeiro

Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.

Detalhes bibliográficos
Ano de defesa:	1998
Autor(a) principal:	Augusto, Sergio Ribeiro
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado por reforço Método das Diferenças Temporais Pêndulo invertido Programação dinâmica Programming Reinforcement Learning Temporal Difference Method
Link de acesso:	https://www.teses.usp.br/teses/disponiveis/3/3139/tde-10102024-095939/
Resumo:	Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada.

Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido.

Registros relacionados