Aprendizagem por reforço em sistemas multiagente aplicado ao controle de grupo de elevadores

Ribeiro, Levi Jordao Memoria Paiva

Aprendizagem por reforço em sistemas multiagente aplicado ao controle de grupo de elevadores

Detalhes bibliográficos
Ano de defesa:	2020
Autor(a) principal:	Ribeiro, Levi Jordao Memoria Paiva
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual do Ceará
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Ciência da computação Heurística Sistemas multiagentes
Link de acesso:	https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=96173
Resumo:	<div style="text-align: justify;"><span style="font-size: 10pt;">Neste trabalho, uma modelagem e algoritmo baseado em aprendizado por reforço multiagente são desenvolvidos para o problema do despacho do grupo de elevadores. A principal vantagem é que, juntamente com a aproximação da função, esta solução multiagente leva a uma síntese do espaço de estados, permitindo que estados complexos sejam endereçados com uma função de avaliação. Cada elevador é considerado um agente que tem que decidir sobre duas ações: responder ou ignorar o novo chamado. Um estado neste ambiente possui características tais como: posição dos elevadores (assumindo o número do andar atual); direção dos elevadores (subindo, descendo ou parado); a intenção de pegar pessoa nos andares; e a intenção de deixar pessoas nos andares dentre outros fatores que compõem um estado. Como função recompensa tem-se um mecanismo que recompensa o agente-elevador quando o mesmo decide atender o chamado sendo o mais próximo do novo chamado ou decide ignorar o chamado no caso contrário. Analogamente, o função de recompensa pune o agente elevador que decide atender o chamado não sendo o mais próximo ou ignora o chamado no caso contrário. A proximidade entre os elevadores do novo chamado é feita através da distância heurística D, proposta neste trabalho. Com algumas iterações, os agentes aprendem os pesos de uma função de avaliação que aproximam a função de valor estado-ação. O desempenho da solução (Tempo Médio de Serviço - TMS), mostrado variando o padrão de tráfego, fluxo de pessoas, número de elevadores e número de andares, é comparável a outras propostas relatadas na literatura. O primeiro experimento é feito sendo: fixado o número de elevadores e número de andares; e variando o fluxo de pessoas e o padrão de tráfego. Dois algoritmos clássicos são comparados a solução proposta e esta apresenta uma estratégia quase dominante. O segundo experimento: fixa o fluxo de pessoas e padrão de tráfego; e varia o número de andares e número de elevadores sendo investigado o impacto dessas variáveis no TMS. O terceiro experimento compara os resultados de outras 3 solução publicadas com este trabalho onde o mesmo apresenta resultados competitivos. Palavras-chave: Aprendizagem por reforço. Sistemas Multiagente. Controle de elevadores. Heurística de distância.</span></div>

Aprendizagem por reforço em sistemas multiagente aplicado ao controle de grupo de elevadores

Registros relacionados