Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Simões, Marco Antônio Costa
 |
Orientador(a): |
Rios, Tatiane Nogueira
 |
Banca de defesa: |
Reis, Luís Paulo Gonçalves dos
,
Bianchi, Reinaldo Augusto da Costa
,
Fabro, João Alberto
,
Maciel, Rita Suzana Pitangueira
,
Rios, Tatiane Nogueira
 |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal da Bahia
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
|
Departamento: |
Instituto de Computação - IC
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufba.br/handle/ri/36102
|
Resumo: |
Um dos grandes desafios em Sistemas Multiagentes(SMA) é a criação de planos cooperativos para lidar com os diversos cenários que se apresentam num ambiente dinâmico, de tempo real, composto por times de robôs móveis. Neste cenário, cada robô é controlado por um agente do SMA, o qual precisa tomar decisões complexas em um curto espaço de tempo de forma coordenada com os demais robôs de seu time. Apesar das muitas soluções desenvolvidas com base em planejamento multiagente e aprendizagem por reforço, um espectador humano usualmente percebe oportunidades para melhores planos cooperativos em muitos cenários em que os robôs apresentam desempenho abaixo do esperado. A pesquisa apresentada nesta tese consiste em capturar o conhecimento do observador humano para demonstrar como times de robôs podem cooperar melhor na solução do problema que devem resolver. Como consequência, as diversas demonstrações humanas podem ser reunidas em um conjunto de dados para treinamento dos agentes que controlam os robôs. Para o desenvolvimento desta pesquisa, foi utilizado o ambiente RoboCup 3D Soccer Simulation (3DSSIM) e a coleta das demonstrações humanas foi realizada por meio de um conjunto de ferramentas desenvolvido a partir da adaptação de soluções existentes na comunidade RoboCup, utilizando uma estratégia de crowdsourcing. Além disso, foi utilizado o agrupamento fuzzy para reunir demonstrações que tenham o mesmo significado semântico, mesmo que com pequenas diferenças entre elas. Com os dados organizados, um mecanismo de aprendizagem por reforço foi utilizado para aprender uma política de classificação que permite aos agentes decidirem qual o grupo de jogadas é mais adequado a cada situação que se apresenta no ambiente. Os resultados evidenciam a capacidade de evolução do time de robôs, a partir da aprendizagem da política de seleção das jogadas sugeridas e do seu uso de forma adequada às habilidades de cada robô. |