Applying machine learning methods for genomic analysis of reproductive traits in Nellore cattle

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Alves, Anderson Antonio Carvalho [UNESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/191316
Resumo: A seleção de animais geneticamente superiores com base na informação genômica tem sido uma tendência crescente e promissora em programas de melhoramento. No entanto, os principais métodos de predição genômica envolvem modelos paramétricos, que em sua maioria, assumem somente variância aditiva para o efeito dos marcadores, ignorando-se possíveis relações não-lineares. A consideração de tais efeitos pode ser importante para melhorar a habilidade de predição em características com arquitetura genética complexa. Recentemente, tem crescido o interesse em métodos de predição semi e não paramétricos. Dentro desse contexto, os métodos de aprendizagem de máquina tais como Redes Neurais Artificiais (ANN), “Random Forest” (RF) e “Support Vector Machines” (SVM) são alternativas interessantes. Os objetivos do presente estudo foram: i) Comparar o desempenho preditivo do modelo “Genomic Best Linear Unbiased Predictor” (GBLUP) e de métodos de aprendizagem de máquina em populações simuladas de bovinos de corte, apresentando diferentes níveis para efeitos de dominância; ii) Investigar a habilidade de predição de diferentes métodos de aprendizagem de máquina para predição genômica de características reprodutivas em bovinos da raça Nelore; iii) Desenvolver um estudo de associação genômica ampla (GWAS) utilizando a metodologia “Random Forest”, a fim de buscar genes candidatos para idade ao primeiro parto em novilhas da raça Nelore. No primeiro estudo, o genoma simulado compreendeu um painel de SNPs (“Single Nucleotide Polymorphisms”) com densidade de 50k e 300 QTLs (“Quantitative Trait Loci”), espalhados aleatoriamente ao longo de 29 cromossomos. Foram simuladas ao todo seis características, considerando-se diferentes valores de herdabilidade no sentido restrito e amplo. No cenário puramente aditivo e com baixa herdabilidade (h2 = 0,10), a habilidade de predição utilizando o método GBLUP foi levemente superior em relação aos outros métodos (aproximadamente de 0,8% a 5,0%), ao passo que as ANN obtiveram melhor acurácia nos cenários com moderada herdabilidade (h2 = 0,30). As acurácias para os efeitos de dominância variaram entre 0,180 e 0,350 no modelo GBLUP considerando a matriz de relacionamento de dominância (GBLUP-D), entre 0,062 e 0,185 para o RF e foram nulas utilizando-se os métodos ANN e SVM. Entre os métodos de aprendizagem de máquina, apenas o RF foi capaz de capturar implicitamente os efeitos de dominância, resultando em maiores acurácias de predição para os valores genéticos totais e fenotípicos quando a variância devido ao efeito de dominância aumentou. No segundo estudo, dados referentes a bovinos da raça Nelore nascidos entre 1984 e 2015 foram utilizados. As características estudadas foram Idade ao Primeiro Parto (AFC), Circunferência Escrotal (SC), Prenhez Precoce (EP) e Habilidade de Permanência (STAY). Após o controle de qualidade, o número de animais com genótipos e de marcadores SNP disponíveis foram respectivamente, 2.342 e 321.419 (AFC), 4.671 e 309.486 (SC), 3.356 e 319.108 (EP) e 2.681 e 319.619 (STAY). A habilidade preditiva de diferentes métodos de aprendizagem de máquina tais como “Support Vector Regression” (SVR), “Bayesian Regularized Artificial Neural Network” (BRANN) e RF foi avaliada. Os resultados foram comparados aos obtidos pelos modelos paramétricos GBLUP e BLASSO (“Bayesian Least Absolute Shrinkage and Selection Operator”). Para o modelo SVR, investigou-se a influência de diferentes valores para o parâmetro de largura de banda do kernel na habilidade de predição do modelo. Para o modelo BRANN, diferentes números de neurônios na camada oculta (de 1 a 4 neurônios) foram examinados para se identificar a melhor arquitetura de rede. Além disso, duas estruturas de informação genômica foram testadas como informação de entrada no modelo BRANN, a matriz de relacionamento genômica (G) e a matriz de componentes principais (PC). A habilidade de predição dos modelos foi avaliada por meio de um esquema de validação cruzada em 5 “folds”. As acurácias obtidas foram de baixas a moderadas de acordo com a característica e modelos considerados, variando entre 0,555 e 0,625 (AFC), 0,268 e 0,359 (SC), 0,573 e 0,666 (EP) e entre 0,517 e 0,618 (STAY). O modelo SVR obteve desempenho ligeiramente superior em relação aos métodos paramétricos (GBLUP e BLASSO) para todas as características avaliadas, aumentando a acurácia de predição da AFC em aproximadamente 5,1% e 3,7%, quando comparados aos modelos GBLUP e BLASSO, respectivamente, e em 7,2% para SC, 3,4% para EP e 5% para STAY quando comparado aos resultados obtidos por ambos GBLUP e BLASSO. Por outro lado, os modelos RF, BRANN_G e BRANN_PC não apresentaram habilidade de predição competitiva com os métodos tradicionais, apresentando menor acurácia de predição e maiores erros de predição para todas as características. Os resultados indicam que o SVR é um método adequado para a predição de valores genéticos genômicos para características reprodutivas em bovinos da raça Nelore, apresentando melhor habilidade de predição e eficiência no tempo de computação em relação as metodologias paramétricas estudadas. Além disso, o valor mais adequado para o parâmetro de largura de banda do kernel no método SVR dependeu da característica avaliada, desse modo, a correta predefinição desse parâmetro na fase de treinamento do modelo é aconselhável. Por último, um estudo de associação genômica ampla foi realizado utilizando a abordagem RF, a fim de se identificar genes candidatos para a idade ao primeiro parto em bovinos da raça Nelore. Os valores examinados para o parâmetro Mtry (ou seja, o número de SNPs testados em cada nó das árvores) foram 1, √p, 0.01p e 0.1p, em que p representa o número total de SNPs. Os parâmetros que produziram o menor erro quadrático nos dados out-of-bag (MSEOOB) foram mantidos para análises posteriores. Foram realizadas 5 análises independentes com diferentes sementes de inicialização do algoritmo e os escores de importância dos SNPs foram computados como a média das 5 análises. Foram identificados 118 SNPs associados com AFC, localizados em oito cromossomos autossômicos (BTA 3, 5, 10, 11, 18, 21, 25 e 27). No total, 23 regiões não sobrepostas cobriram 172 genes candidatos para AFC. Regiões genômicas previamente associadas com características de fertilidade e crescimento em bovinos Nelore foram reportadas neste estudo, o que reforça a efetividade do RF como um método para a varredura inicial de regiões candidatas associadas com características complexas. O estudo de associação baseado no método RF e a análise funcional apontaram genes candidatos com funções chave na regulação da fertilidade, incluindo a pré-implantação de embriões e seu desenvolvimento, viabilidade embrionária, maturação de células germinais masculinas e reconhecimento de feromônios.