Computação de alto desempenho na seleção genômica

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Lagrotta, Marcos Rodrigues
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
BR
Genética e Melhoramento de Animais Domésticos; Nutrição e Alimentação Animal; Pastagens e Forragicul
Doutorado em Zootecnia
UFV
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://locus.ufv.br/handle/123456789/1804
Resumo: A computação paralela vem crescendo nos últimos anos em virtude do menor custo dos computadores e do aumento exponencial dos bancos de dados. O processamento em paralelo envolve a execução de múltiplas tarefas simultaneamente em diferentes processadores. No contexto da seleção genômica, o grande número de marcadores genéticos utilizado nas análises, bem como a grande demanda computacional dos modelos bayesianos fundamentados nos métodos de Monte Carlo Via Cadeias de Markov, faz com que certas análises despendem semanas ou meses de processamento. Assim, a computação paralela representa uma solução natural a este problema. O método usado para análise foi o BayesCπ, o qual possui apenas passos do Amostrador de Gibbs. O algoritmo foi inicialmente escrito na forma sequencial usando o FORTRAN. Duas estratégias de paralelização foram então estudadas. A primeira envolveu a análise de múltiplas cadeias em paralelo, sendo recomendada na situação em que o burn-in não seja longo. A segunda estratégia referiu-se à paralelização da própria cadeia, sendo indicada para situações em que o burn-in é muito longo. Utilizou-se a biblioteca MPI e o pacote OpenMPI associado ao compilador gfortran para tal propósito. As computações foram realizadas em um computador pessoal, com seis núcleos de processamento de 3,3 GHz e 16 GB de memória RAM e em um cluster com 120 processadores de 2,77 GHz. Foram utilizados dados simulados para duas características produtivas de bovinos de leite, referentes a 10.000 marcadores e 4.100 indivíduos. No computador pessoal, o algoritmo sequencial foi processado em 77,29 horas e ao usar múltiplas cadeias em paralelo o processamento foi quase cinco vezes mais rápido com seis núcleos de processamento. A relação de desempenho entre o algoritmo paralelo e o sequencial foi maior no cluster, pois a sua arquitetura de memória escalona melhor com o número de processadores em uso do que a arquitetura de memória compartilhada do computador pessoal. A segunda estratégia de paralelização apresentou um ganho de desempenho de apenas 19% com dois processadores. Contudo, usando mais processadores não houve melhora de desempenho. Esta estratégia só se aplica em sistemas com arquitetura de memória compartilhada, devido ao elevado overhead (sobrecarga) gerado pela intensa troca de informações e sincronização das tarefas. Conclui-se que a computação paralela é uma técnica de fundamental importância para a seleção genômica, e isto será mais expressivo nos próximos anos devido ao rápido crescimento dos bancos de dados. Estratégias mais eficientes de paralelização da própria cadeia devem ser desenvolvidas, visto que nas situações em que o burn-in é muito longo o processamento de múltiplas cadeias em paralelo não é recomendado. O ideal seria que estas novas abordagens apresentassem bom desempenho em sistemas com arquitetura de memória distribuída (clusters).