Detalhes bibliográficos
Ano de defesa: |
2001 |
Autor(a) principal: |
Pegoraro, Renê |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-07112024-151608/
|
Resumo: |
Diversos algoritmos de Aprendizado por Reforço (AR) foram propostos para solucionar os Processos de Decisão de Markov. Em AR, a prendizagem é conduzida através de repetidas interações do agente com o ambiente, por tentativa e erro. Encontrar políticas ótimas usando os algoritmos de AR pode ser bastante demorado. Visando acelerar a aprendizagem, muitos algoritmos foram desenvolvidos. Um destes algoritmos é o QS-Learning, no qual uma única experiência pode atualizar mais do que um valor da ação, através do uso de uma função de espalhamento. Com o intuito de melhorar o algoritmo QS, considera-se o uso de similaridades entre pares estado-ação, definidos em um espaço de similaridades, e a aplicação destas similaridades para acelerar alguns algoritmos AR. Esta Tese propõe o algoritmo QSx-Learning, que é o algoritmo QS-Learning com identificação explícita de similaridades entre pares estado-ação, e o algoritmo Minimax-QSx, o qual combina o algoritmo Minimax-Q com o algoritmo QSx-Learning. Diversas simulações foram desenvolvidas no domínio de robótica móvel, incluindo o futebol de robôs, que é um domínio multiagentes. Pode-se observar que, definindo funções de espalhamento muito simples, dependentes do domínio, consegue-se melhorias significativas no desempenho dos algoritmos de aprendizado por reforço. |