Detalhes bibliográficos
Ano de defesa: |
2002 |
Autor(a) principal: |
Letícia Maria Friske |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Instituto Tecnológico de Aeronáutica
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2511
|
Resumo: |
Em aplicações de Aprendizagem por Reforço tais como a navegação de robôs autônomos, o uso de opções (macro-operadores) no lugar de ações de baixo nível tem sido considerado como um meio para produzir convergência mais rápida e uma exploração mais significativa do espaço de estados.Esta dissertação apresenta um estudo sobre a utilização de opções em Aprendizagem por Reforço com o objetivo de encontrar formas para acelerar o processo de aprendizagem. São abordados dois tipos de opções, opções OP e OS. Uma opção OP corresponde a uma política de ações que depende de todos os estados visitados durante a execução da opção, sendo que uma política de ações mapeia uma ação para cada estado do ambiente. O segundo tipo de opções, cuja proposta é uma das principais contribuições do trabalho, corresponde a uma seqüência fixa de ações, que depende exclusivamente do estado em que a opção foi disparada. O desempenho das opções OP e OS foi comparado através da realização de experimentos com o simulador do robô móvel Khepera usando-se o algoritmo de aprendizagem Q-Learning. Também foram realizados experimentos com as opções OP e uma adaptação do método de Campos Potenciais, no qual cada opção OP corresponde a um mapeamento de ações que podem aproximar o agente do seu alvo ou fazer com que o mesmo desvie de obstáculos. Para finalizar os estudos, algumas técnicas conhecidas na literatura que possibilitam melhoras na aprendizagem com opções OP, tais como o Término Melhorado e a utilização de Hierarquias foram aplicadas às opções OS. A primeira técnica possibilita que a execução de uma opção seja interrompida sempre que isto pareça ser melhor que ir até o final da mesma e a utilização de hierarquias permite uma categorização de comportamentos, fazendo a chamada de determinados comportamentos apenas quando estes forem necessários. Os resultados desta última fase experimental também são relatados na dissertação. |