Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
Ano de defesa: | 2017 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.lncc.br/handle/tede/356 |
Resumo: | Embora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK. |