Um caso de estudo de aprendizado de máquina para otimizar configurações de submissões de gateways científicos baseado no BioinfoPortal
Ano de defesa: | 2023 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.lncc.br/handle/tede/384 |
Resumo: | Gateways científicos são interfaces baseadas na web que conectam recursos e infraestruturas complexas para a execução de aplicações disponíveis em supercomputadores, facilitando o uso destes e permitindo que os cientistas se concentrem em suas pesquisas sem a necessidade de entender os detalhes de funcionamento dos supercomputadores. O gateway científico BioinfoPortal oferece acesso a diversas ferramentas de bioinformática usadas em pesquisas avançadas - genômica comparativa, filogenômica, transcriptômica e muito mais, estando acoplado aos recursos do supercomputador Santos Dumont. O desempenho do BioinfoPortal é influenciado pela combinação de informações sobre o tipo da aplicação científica, infraestrutura computacional e ambiente de execução. Na presente dissertação, desenvolveu-se a ML-BIO, uma ferramenta baseada em aprendizado de máquina, que processa essas informações, apoia na tomada de decisões e escolhe a melhor configuração para submissão de tarefas, possibilitando o aumentando da eficiência do BioinfoPortal. A base de dados com informações em relação ao tempo de execução e consumo de memória da aplicação de filogenia RAxML foi utilizada para treinar os modelos preditivos Extra Trees Classifier e Extra Trees Regressor. As análises de desempenho mostraram que um aumento no número de bootstrap do RAxML aumenta o tempo de execução, enquanto o aumento do número de nós do SDumont reduz esse tempo. Para alcançar um bom desempenho com uma boa vazão, para os parâmetros estudados, a configuração ideal consiste em usar 5 nós dado valores de bootstrap acima de 100 e dado valores inferiores a 10 a alocação de 1 nó é suficiente, evitando subutilizar recursos com a utilização de mais nós. A ML-BIO demonstrou ser capaz de prever a quantidade ideal de nós computacionais em relação ao uso de diferentes valores de bootstrap do RAxML, sendo sustentada pela metodologia proposta nesta dissertação, proporcionando melhor desempenho na execução e uso mais eficiente dos recursos computacionais. A integração da ML-BIO à arquitetura do BioinfoPortal permite que as submissões de tarefas sejam criadas de maneira iterativa e otimizada, o que até então é realizado de maneira fixa e predeterminada, tornando o BioinfoPortal mais escalável e inteligente. |