Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Ribeiro, Levi Jordao Memoria Paiva |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual do Ceará
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=96173
|
Resumo: |
<div style="text-align: justify;"><span style="font-size: 10pt;">Neste trabalho, uma modelagem e algoritmo baseado em aprendizado por reforço multiagente são desenvolvidos para o problema do despacho do grupo de elevadores. A principal vantagem é que, juntamente com a aproximação da função, esta solução multiagente leva a uma síntese do espaço de estados, permitindo que estados complexos sejam endereçados com uma função de avaliação. Cada elevador é considerado um agente que tem que decidir sobre duas ações: responder ou ignorar o novo chamado. Um estado neste ambiente possui características tais como: posição dos elevadores (assumindo o número do andar atual); direção dos elevadores (subindo, descendo ou parado); a intenção de pegar pessoa nos andares; e a intenção de deixar pessoas nos andares dentre outros fatores que compõem um estado. Como função recompensa tem-se um mecanismo que recompensa o agente-elevador quando o mesmo decide atender o chamado sendo o mais próximo do novo chamado ou decide ignorar o chamado no caso contrário. Analogamente, o função de recompensa pune o agente elevador que decide atender o chamado não sendo o mais próximo ou ignora o chamado no caso contrário. A proximidade entre os elevadores do novo chamado é feita através da distância heurística D, proposta neste trabalho. Com algumas iterações, os agentes aprendem os pesos de uma função de avaliação que aproximam a função de valor estado-ação. O desempenho da solução (Tempo Médio de Serviço - TMS), mostrado variando o padrão de tráfego, fluxo de pessoas, número de elevadores e número de andares, é comparável a outras propostas relatadas na literatura. O primeiro experimento é feito sendo: fixado o número de elevadores e número de andares; e variando o fluxo de pessoas e o padrão de tráfego. Dois algoritmos clássicos são comparados a solução proposta e esta apresenta uma estratégia quase dominante. O segundo experimento: fixa o fluxo de pessoas e padrão de tráfego; e varia o número de andares e número de elevadores sendo investigado o impacto dessas variáveis no TMS. O terceiro experimento compara os resultados de outras 3 solução publicadas com este trabalho onde o mesmo apresenta resultados competitivos. Palavras-chave: Aprendizagem por reforço. Sistemas Multiagente. Controle de elevadores. Heurística de distância.</span></div> |