Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Antes, Taylor de Oliveira
Orientador(a): Bazzan, Ana Lucia Cetertich
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/223664
Resumo: Controle semafórico é uma possível solução para o sério problema de aumento de congestionamento nas áreas urbanas. Técnicas de aprendizado por reforço multiagente (MARL) têm mostrado resultados significativos na otimização de controladores semafóricos, visto que distribuem o controle global do tráfego entre agentes locais responsáveis pelos controladores. Assim, cada agente local tem uma visão parcial do ambiente e otimiza sua política baseado em suas observações. Contudo, o tráfego que passa por uma interseção não depende apenas de influências locais, mas de informações da rede de transporte como um todo. Do ponto de vista computacional, realizar o controle semafórico de uma rede de transporte de forma centralizada é uma tarefa de difícil execução devido à grande quantidade de variáveis envolvidas; enquanto de forma descentralizada, é possível não atingir o melhor desempenho do sistema, visto que os agentes buscam melhorar individualmente. O método proposto nesta dissertação baseia-se em utilizar uma organização hierárquica para aumentar a visão dos agentes locais e coordená-los com o objetivo de melhorar o desempenho do sistema. O método é inspirado em algumas técnicas de aprendizado por reforço que utilizam uma organização hierárquica. Contudo, diferencia-se dessas técnicas por apresentar uma metodologia hierárquica mais flexível em relação às interações entre os agentes de diferentes níveis. Na metodologia proposta, uma organização hierárquica com um número arbitrário de níveis é apresentada. Agentes supervisores, de nível l, são responsáveis por um conjunto de agentes subordinados, de nível l 1. Os subordinados transmitem uma abstração de suas observações do ambiente para seus supervisores. Os supervisores utilizam essas abstrações para aprender uma recomendação de alto nível a qual guiará o aprendizado dos seus subordinados para um melhor desempenho coletivo. Na aplicação para controle semafórico, a rede de transporte é dividida em regiões de diferentes níveis hierárquicos, cada região sendo controlada por um agente. Logo, quanto mais alto o nível hierárquico do agente região, mais ampla é sua visão do tráfego na rede de transporte. Na base da hierarquia se encontram os agentes dos controladores semafóricos, localizados em cada interseção. Os resultados dos experimentos, realizados em uma rede sintética em grid, mostram que a metodologia proposta de aprendizado por reforço com organização hierárquica tem melhor desempenho quando comparada a um método de tempo fixo e a um método com aprendizado por reforço sem organização hierárquica.