Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Vilasbôas, Fabrício Gomes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/356
Resumo: Embora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK.