Aprendizagem por reforço em sistemas multiagente aplicado ao controle de grupo de elevadores

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Ribeiro, Levi Jordao Memoria Paiva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual do Ceará
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=96173
Resumo: <div style="text-align: justify;"><span style="font-size: 10pt;">Neste trabalho, uma modelagem e algoritmo baseado em aprendizado por reforço multiagente são desenvolvidos para o problema do despacho do grupo de elevadores. A principal vantagem é que, juntamente com a aproximação da função, esta solução multiagente leva a uma síntese do espaço de estados, permitindo que estados complexos sejam endereçados com uma função de avaliação. Cada elevador é considerado um agente que tem que decidir sobre duas ações: responder ou ignorar o novo chamado. Um estado neste ambiente possui características tais como: posição dos elevadores (assumindo o número do andar atual); direção dos elevadores (subindo, descendo ou parado); a intenção de pegar pessoa nos andares; e a intenção de deixar pessoas nos andares dentre outros fatores que compõem um estado. Como função recompensa tem-se um mecanismo que recompensa o agente-elevador quando o mesmo decide atender o chamado sendo o mais próximo do novo chamado ou decide ignorar o chamado no caso contrário. Analogamente, o função de recompensa pune o agente elevador que decide atender o chamado não sendo o mais próximo ou ignora o chamado no caso contrário. A proximidade entre os elevadores do novo chamado é feita através da distância heurística D, proposta neste trabalho. Com algumas iterações, os agentes aprendem os pesos de uma função de avaliação que aproximam a função de valor estado-ação. O desempenho da solução (Tempo Médio de Serviço - TMS), mostrado variando o padrão de tráfego, fluxo de pessoas, número de elevadores e número de andares, é comparável a outras propostas relatadas na literatura. O primeiro experimento é feito sendo: fixado o número de elevadores e número de andares; e variando o fluxo de pessoas e o padrão de tráfego. Dois algoritmos clássicos são comparados a solução proposta e esta apresenta uma estratégia quase dominante. O segundo experimento: fixa o fluxo de pessoas e padrão de tráfego; e varia o número de andares e número de elevadores sendo investigado o impacto dessas variáveis no TMS. O terceiro experimento compara os resultados de outras 3 solução publicadas com este trabalho onde o mesmo apresenta resultados competitivos. Palavras-chave: Aprendizagem por reforço. Sistemas Multiagente. Controle de elevadores. Heurística de distância.</span></div>