Q-Learning baseada em instância aplicada à observação cooperativa de alvos móveis

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Figueiredo, Levi Porto
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual do Ceará
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=106386
Resumo: O problema Cooperative Target Observation (CTO) consiste em comandar um grupo de agentes observadores, com visão limitada, que deve se mover para manter a observação de múltiplos agentes alvos móveis, com o objetivo de maximizar o número médio de alvos observados durante o período considerado. Algoritmos centralizados para este problema apresentam bom desempenho, mas sofrem de duas fraquezas: alta demanda de comunicação e um nó de falha crítica que é o nó central. Neste trabalho é proposto um algoritmo de comando descentralizado dos observadores que utiliza de Q-Learning Baseado em Instância (Lazy Q-Learning), o qual é uma variante de um algoritmo anterior proposto para um problema relacionado: o Cooperative Multirobot Observation of Multiple Moving Targets (CMOMMT). O desempenho do Lazy Q-Learning é comparado com os de algoritmos centralizados e descentralizados já presentes na literatura. Resultados de simulações apontam que o algoritmo proposto aplicado ao problema CTO é viável