Redes neurais artificiais para predição genômica na presença de interações epistáticas

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Sant'anna, Isabela de Castro
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.locus.ufv.br/handle/123456789/20126
Resumo: A identificação de genótipos com desempenho superior é um dos principais objetivos da maioria dos programas de melhoramento de plantas. No entanto, a capacidade de atingir esse objetivo é limitada pelo alto custo da fenotipagem e realização de experimentos. Neste contexto, a Seleção Genômica (SG) foi proposta para estimar o valor genético (VGG) de indivíduos que ainda não foram fenotipados por meio de informações de marcadores distribuídos em todo o genoma. No entanto, a maioria das modelagens da SG expressam o valor fenotípico como função apenas do efeito aditivo do valor genotípico o que dificulta, muitas vezes, uma representação mais realística da arquitetura genética de caracteres quantitativos, sendo a inclusão de efeitos dominância e interações epistáticas fatores cruciais para aumentar a acurácia da predição. O papel da epistasia na arquitetura genética de caracteres complexos tem sido discutido desde o surgimento da genética quantitativa e, embora seja visto por diferentes perspectivas, o reconhecimento sobre sua importância é crescente. Nas populações, a variância genética total é dividida em componentes de variância aditivo, de dominância e de epistasia, que dependem dos efeitos dos locos e das frequências dos alelos presentes na população. Assim, se a frequência do alelo epistático varia entre as populações, o efeito do gene de interesse pode significativo em uma população, mas não em outra, e o efeito pode até mesmo ser inverso sobre o caráter em ambientes diferenciados. Neste contexto, as Redes Neurais Artificias (RNAs) tornam-se alternativas de análise promissoras por capturar relações não lineares entre os marcadores a partir dos próprios dados, o que a maioria dos modelos comumente utilizados na SG não conseguem. Entretanto, a inclusão de todos os marcadores no genoma no modelo aumenta as chances de existência de alta correlação entre eles e representa um enorme desafio computacional, que acarreta menor precisão no treinamento da RNA, que utilizam boa parte de seus recursos para representar porções irrelevantes do espaço de busca, dificultando o aprendizado. Assim, um modelo mais realístico deveria incluir apenas os SNPs (Single Nucletiode polymorphism) ao caráter de interesse. Para minimizar os efeitos da dimensionalidade sobre a modelagem de SG usando RNA foi proposta, no presente trabalho, a utilização de métodos de redução de dimensionalidade do tipo Sonda e Stepwise para fins de seleção de um subconjunto de marcadores que serão utilizados na predição do valor genético. Após a seleção de marcadores, foi avaliada a eficiência do método de seleção genômica RR-BLUP e das redes neurais artificias do tipo de base radial (RNA-REF) e Perceptron de Múltiplas camadas (RNA-MLP) na predição do valor genético em população natural com desequilíbrio gamético. Para isso, foi simulada uma população Fl oriunda da hibridação de genitores divergentes, com 500 indivíduos, genotipados com 1000 marcadores do tipo SNP. As características fenotípicas foram determinadas adotando-se três modelos: aditivo, aditivo-dominante e epistático, atendendo duas situações de dominância: parcial e completa com caracteres quantitativos admitindo herdabilidades (hª) de 30 e 60%, controlados cada um por 100 locos, considerando dois alelos por loco, totalizando 12 cenários distintos. Para avaliar a capacidade de predição, o modelo RR-BLUP e RNA- RBF foram treinados utilizando 80% dos indivíduos da população e procedimento de validação cruzada com cinco repetições. Para tanto foram obtidos o quadrado da correlação entre o valor genômico predito (GEBV) e o valor genotípico/fenotípico para medir a acurácia seletiva (R2) e a raiz do erro do quadrado médio (REQM), para medir a acurácia preditiva. Os resultados obtidos pela validação genotípica no primeiro capitulo mostraram que o uso de redes neurais permite capturar as interações epistáticas levando a uma melhora na predição do valor genético e, principalmente, a grande redução da raiz do erro médio quadrado (REQM), o que indica maior confiabilidade da predição do valor genômico. No entanto, a partir dos resultados obtidos por validação fenotípica foi evidente que a acurácia de predição poderia ser melhorada ao introduzir a seleção de marcadores. Consequentemente, no segundo capítulo de trabalho, após aplicar os métodos de redução de dimensionalidade, sonda e Stepwise, acurácia de predição aumentou. Por exemplo, para a h2= 0.3 no cenário aditivo, o R2 de validação foi de 59.l% para rede neural (RNA-REF), 57% (RNA-MLP) e 57% para RR-BLUP e, no cenário epistático, os valores de R2 foram de 50%, 47 e 41%, respectivamente. Adicionalmente, ao analisarmos REQM, a diferença entre os desempenhos das técnicas é ainda maior. Para o cenário 1, as estimativas foram de 91 (RR-BLUP) e 5 para ambas as redes neurais e, no cenário mais crítico que incluía epistasia e dominância, de 427(RR-BLUP) e 20 para as redes neurais. Os resultados obtidos mostram que a utilização de redes neurais permite capturar as interações epistáticas levando a um aumento na acurácia da predição do valor genético e, principalmente, redução do erro quadrático médio, o que indica maior confiabilidade da predição do valor genômico.