Um caso de estudo de aprendizado de máquina para otimizar configurações de submissões de gateways científicos baseado no BioinfoPortal

Paula, Micaella Coelho Valente de

Um caso de estudo de aprendizado de máquina para otimizar configurações de submissões de gateways científicos baseado no BioinfoPortal

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Paula, Micaella Coelho Valente de
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Aprendizado por computador Computação de alto desempenho Gateways científicos Bioinformática Previsão de recursos CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::ARQUITETURA DE SISTEMAS DE COMPUTACAO
Link de acesso:	https://tede.lncc.br/handle/tede/384
Resumo:	Gateways científicos são interfaces baseadas na web que conectam recursos e infraestruturas complexas para a execução de aplicações disponíveis em supercomputadores, facilitando o uso destes e permitindo que os cientistas se concentrem em suas pesquisas sem a necessidade de entender os detalhes de funcionamento dos supercomputadores. O gateway científico BioinfoPortal oferece acesso a diversas ferramentas de bioinformática usadas em pesquisas avançadas - genômica comparativa, filogenômica, transcriptômica e muito mais, estando acoplado aos recursos do supercomputador Santos Dumont. O desempenho do BioinfoPortal é influenciado pela combinação de informações sobre o tipo da aplicação científica, infraestrutura computacional e ambiente de execução. Na presente dissertação, desenvolveu-se a ML-BIO, uma ferramenta baseada em aprendizado de máquina, que processa essas informações, apoia na tomada de decisões e escolhe a melhor configuração para submissão de tarefas, possibilitando o aumentando da eficiência do BioinfoPortal. A base de dados com informações em relação ao tempo de execução e consumo de memória da aplicação de filogenia RAxML foi utilizada para treinar os modelos preditivos Extra Trees Classifier e Extra Trees Regressor. As análises de desempenho mostraram que um aumento no número de bootstrap do RAxML aumenta o tempo de execução, enquanto o aumento do número de nós do SDumont reduz esse tempo. Para alcançar um bom desempenho com uma boa vazão, para os parâmetros estudados, a configuração ideal consiste em usar 5 nós dado valores de bootstrap acima de 100 e dado valores inferiores a 10 a alocação de 1 nó é suficiente, evitando subutilizar recursos com a utilização de mais nós. A ML-BIO demonstrou ser capaz de prever a quantidade ideal de nós computacionais em relação ao uso de diferentes valores de bootstrap do RAxML, sendo sustentada pela metodologia proposta nesta dissertação, proporcionando melhor desempenho na execução e uso mais eficiente dos recursos computacionais. A integração da ML-BIO à arquitetura do BioinfoPortal permite que as submissões de tarefas sejam criadas de maneira iterativa e otimizada, o que até então é realizado de maneira fixa e predeterminada, tornando o BioinfoPortal mais escalável e inteligente.

Um caso de estudo de aprendizado de máquina para otimizar configurações de submissões de gateways científicos baseado no BioinfoPortal

Registros relacionados