Detalhes bibliográficos
Ano de defesa: |
2017 |
Autor(a) principal: |
Costa, Mademerson Leandro da |
Orientador(a): |
Doria Neto, Adrião Duarte |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA E ENGENHARIA DE PETRÓLEO
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufrn.br/jspui/handle/123456789/24149
|
Resumo: |
Um sistema de tarefas em espaços métricos é um modelo abstrato para uma classe de problemas de otimização online, incluindo o problema de paginação de memória, listas de acesso, problemas na indústria do petróleo como o gerenciamento de sondas de produção terrestre (workover rigs) e de logística na produção de petróleo offshore, o problema dos K-Servos, dentre outros. A utilização da aprendizagem por reforço na solução destes problemas, embora tenha se mostrado eficiente, está restrita a uma classe simples de problemas, devido à maldição da dimensionalidade inerente ao método. Neste trabalho, apresenta-se uma solução que utiliza a aprendizagem por reforço, baseada em técnicas de decomposição hierárquica e computação paralela para solução de problemas de otimização em espaços métricos, com o objetivo de estender a aplicabilidade do método a problemas complexos na indústria petrolífera, contornando a restrição da sua utilização a problemas teóricos de menor porte. A dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, sendo diretamente proporcional ao número n de nós e k de servos, fazendo com que o crescimento da complexidade do problema se dê de maneira exponencial (≅()). Para contorná-lo, o problema foi modelado com um processo de decisão em múltiplas etapas onde inicialmente utilizamos o algoritmo k-means como método de agrupamento visando decompor o problema em subproblemas de menor dimensão. Em seguida foi aplicado o algoritmo Q-learning nos subgrupos buscando-se atingir a melhor política de deslocamento dos servos. Nesta etapa, foram utilizadas técnicas de computação paralela para que os processos de aprendizado e armazenamento nos subgrupos fossem executados de forma paralela. Desta forma, a dimensão do problema e o tempo total de execução do algoritmo foram reduzidos, viabilizando a aplicação do método proposto às grandes instâncias. A abordagem proposta apresentou melhores resultados quando comparada com a aprendizagem por reforço clássica e o método guloso. Além de ter atingido ganhos de speedup e eficiência na avaliação das métricas de desempenho paralelo. |