Um caso de estudo de aprendizado de máquina para otimizar configurações de submissões de gateways científicos baseado no BioinfoPortal

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Paula, Micaella Coelho Valente de
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/384
Resumo: Gateways científicos são interfaces baseadas na web que conectam recursos e infraestruturas complexas para a execução de aplicações disponíveis em supercomputadores, facilitando o uso destes e permitindo que os cientistas se concentrem em suas pesquisas sem a necessidade de entender os detalhes de funcionamento dos supercomputadores. O gateway científico BioinfoPortal oferece acesso a diversas ferramentas de bioinformática usadas em pesquisas avançadas - genômica comparativa, filogenômica, transcriptômica e muito mais, estando acoplado aos recursos do supercomputador Santos Dumont. O desempenho do BioinfoPortal é influenciado pela combinação de informações sobre o tipo da aplicação científica, infraestrutura computacional e ambiente de execução. Na presente dissertação, desenvolveu-se a ML-BIO, uma ferramenta baseada em aprendizado de máquina, que processa essas informações, apoia na tomada de decisões e escolhe a melhor configuração para submissão de tarefas, possibilitando o aumentando da eficiência do BioinfoPortal. A base de dados com informações em relação ao tempo de execução e consumo de memória da aplicação de filogenia RAxML foi utilizada para treinar os modelos preditivos Extra Trees Classifier e Extra Trees Regressor. As análises de desempenho mostraram que um aumento no número de bootstrap do RAxML aumenta o tempo de execução, enquanto o aumento do número de nós do SDumont reduz esse tempo. Para alcançar um bom desempenho com uma boa vazão, para os parâmetros estudados, a configuração ideal consiste em usar 5 nós dado valores de bootstrap acima de 100 e dado valores inferiores a 10 a alocação de 1 nó é suficiente, evitando subutilizar recursos com a utilização de mais nós. A ML-BIO demonstrou ser capaz de prever a quantidade ideal de nós computacionais em relação ao uso de diferentes valores de bootstrap do RAxML, sendo sustentada pela metodologia proposta nesta dissertação, proporcionando melhor desempenho na execução e uso mais eficiente dos recursos computacionais. A integração da ML-BIO à arquitetura do BioinfoPortal permite que as submissões de tarefas sejam criadas de maneira iterativa e otimizada, o que até então é realizado de maneira fixa e predeterminada, tornando o BioinfoPortal mais escalável e inteligente.