Framework para execução de workflows de redes filogenéticas em ambientes de computação de alto desempenho
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.lncc.br/handle/tede/351 |
Resumo: | Nos últimos anos, o desenvolvimento de tecnologias, como o sequenciamento de nova geração e a computação de alto desempenho possibilitou a execução de experimentos de Bioinformática de alta complexidade e computacionalmente intensivos. Diferentes áreas da Bioinformática necessitam utilizar plataformas de computação de alto desempenho para aproveitar do paralelismo e da distribuição de tarefas, por meio de tecnologias especializadas de sistemas de gerência de workflows científicos. Uma das áreas da Bioinformática que necessitam da computação de alto desempenho é a filogenia, área que expressa as relações evolutivas entre genes e organismos, estabelecendo quais deles estão mais relacionados evolutivamente. A filogenia é usada em várias abordagens, como na classificação de espécies; na descoberta do parentesco de indivíduos; na identificação da origem de patógenos, e até na biologia da conservação. Uma forma de representar as relações filogenéticas é utilizando redes filogenéticas. Contudo, a construção dessas redes utiliza algoritmos computacionalmente intensivos e que requerem a constante manipulação dos diferentes dados de entrada. O presente trabalho visa o desenvolvimento de um framework para a construção de redes filogenéticas explícitas, modelando um workflow científico que agrega diferentes métodos para a construção das redes e para o tratamento dos dados de entrada necessários. O framework foi desenvolvido para possibilitar a utilização de múltiplos fluxos do workflow de forma automatizada, paralela e distribuída em uma única execução e também ser executável em ambientes de computação de alto desempenho, configurando uma tarefa desafiadora, uma vez que as ferramentas usadas não são desenvolvidas com foco nesse ambiente. Para orquestrar as tarefas do workflow, utilizou-se a biblioteca de programação paralela escalável Parsl, permitindo realizar otimizações na execução das tarefas do workflow, realizando um melhor controle de recursos. Foram desenvolvidas duas versões do framework, chamadas Single Partition e Multi Partition, diferindo na forma como os recursos são utilizados. Nos testes realizados, houve uma melhoria no tempo de execução de aproximadamente cinco vezes em comparação com a execução sequencial de um fluxo sem as otimizações. O framework foi validado utilizando dados públicos de genomas do vírus da Dengue, que foram processados, anotados e executados no framework utilizando o supercomputador Santos Dumont. A construção das redes filogenéticas explícitas dos genomas indicam que o framework desenvolvido é uma ferramenta funcional, eficiente e de fácil uso. |