Aplicação da aprendizagem por reforço para o problema de alocação de espectro em redes ópticas elásticas

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: Luis Fernando Amorim França
Orientador(a): Solon Venâncio de Carvalho, Rita de Cássia Meneses Rodrigues
Banca de defesa: Horacio Hideki Yanasse, Carlos Henrique Costa Ribeiro, Armando Zeferino Milioni
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Nacional de Pesquisas Espaciais (INPE)
Programa de Pós-Graduação: Programa de Pós-Graduação do INPE em Computação Aplicada
Departamento: Não Informado pela instituição
País: BR
Resumo em Inglês: Elastic Optical Networks (EONs) have been recently proposed to provide flexibility over traditional optical networks. In these networks, resources, called slots, are allocated according to traffic demands, providing the possibility of generating optical paths to establish connection requests for different classes of services with heterogeneous bandwidth requirements. In order to establish the optical paths one must select which links will be used to route each connection and, for each link of the route, which slots will be allocated. In this work we focus in one link of an EON under dynamic traffic, and thus no routing needs to be done. We propose an analytical model, by means of a continuous-time Markov decision process, to find an optimal Spectrum Allocation (SA) policy. Once a SA policy is applied, we use a Markov chain to compute its performance metrics. For more realistic instances of the problem, however, the analytical model is computationally infeasible. Therefore, we also propose the use of a reinforcement learning algorithm in order to find SA policies for the cases where the analytical model cannot be applied. Numerical results are provided to illustrate the performance metrics of the SA policy derived from our model over two SA myopic policies commonly used in the literature, namely First-Fit and Best-Fit.
Link de acesso: http://urlib.net/sid.inpe.br/mtc-m21b/2016/05.16.02.36
Resumo: As Redes ópticas elásticas vêm sendo desenvolvidas recentemente com o intuito de prover maior flexibilidade em relação às redes ópticas tradicionais. Nessas redes, recursos, denominados slots, são alocados de acordo com a demanda de tráfego. Torna-se possível, então, a geração de caminhos ópticos para estabelecer conexões para diferentes classes de serviços com requerimentos de banda heterogêneos. Ao se estabelecer um caminho óptico deve-se selecionar quais enlaces serão utilizados para rotear a conexão e, para cada enlace dessa rota, quais slots serão alocados. Neste trabalho focamos em um enlace de uma rede óptica elástica sob tráfego dinâmico, e, portanto, o roteamento não precisa ser realizado. Nós propomos um modelo analítico, por meio de um processo markoviano de decisão a tempo contínuo, para encontrar uma política ótima de alocação de espectro. Uma vez que essa política é aplicada, nós utilizamos uma cadeia de Markov para calcular suas medidas de desempenho. Para instâncias mais realistas do problema, no entanto, o modelo analítico torna-se inviável de ser resolvido, seja por restrições de memória ou tempo de processamento. Dessa forma, propomos também a utilização de um algoritmo de aprendizagem por reforço para encontrar políticas de alocação de espectro nos casos em que o modelo analítico não pode ser aplicado. Resultados numéricos são apresentados para ilustrar as medidas de desempenho da política de alocação de espectro derivada do nosso modelo em relação a duas políticas comumente utilizadas na literatura, First-Fit e Best-Fit.