Predição genômica sob diferentes cenários que incluem, ou não, locos controladores de características
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Viçosa
Genética e Melhoramento |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://locus.ufv.br//handle/123456789/31504 https://doi.org/10.47328/ufvbbt.2022.578 |
Resumo: | O presente estudo avaliou o impacto do uso de diferentes conjuntos de marcadores sobre a eficiência da predição utilizando as técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest. As técnicas foram analisadas em relação a seis características. As características foram controladas pelos mesmos quarenta genes com diferentes herdabilidades (0,4, 0,6 e 0,8) acrescidos, ou não, por quatro genes com efeitos maiores de herdabilidade igual a um. O grau médio de dominância adotado foi um para todas as características. Dentro de cada gene havia um marcador. Os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Ao simular a aleatorização envolvida na formação dos gametas que originaram a população, pode segregar as marcas diferentemente do que era desejado. Além disso, os dados fenotípicos e genotípicos gerados podem ser diferentes dos pretendidos. No primeiro capítulo foi analisada a qualidade dos dados em relação a esses fatores. Foi testado se o conjunto de dados obtido por simulação expressava o padrão fenotípico e/ou genotípico das diversas características e se os marcadores segregavam corretamente. Encontrou-se que das 2010 marcas simuladas, somente cinco não segregavam como o esperado. As marcas estavam distribuídas equitativamente em dez grupos de ligação e por meio dos resultados de desequilíbrio de ligação. Mesmo com as marcas distorcidas, foi possível recuperar a ordem e a posição desses grupos. Em relação aos dados fenotípicos, encontrou-se que as características controladas por quarenta genes (x1, x3 e x5) possuíam uma média de 127,97 e as características controladas por quarenta e quatro genes (x 2, x4 e x6) possuíam uma média de 220,21, independentemente da herdabilidade. As variâncias foram todas diferentes, mas com o padrão das que eram controladas por quarenta genes serem menores do que as controladas por quarenta e quatro genes. Ao se fazer a correlação entre os valores fenotípicos e valores genotípicos, recuperou- se o valor da herdabilidade das características próximo ao estipulado pela simulação. Observou-se que a presença de genes de efeitos maiores aumentava a herdabilidade, facilitando o estabelecimento de classes de discriminação genotípica. Ao se plotar os dados para análise da distribuição fenotípica, observou-se distribuição contínua em x1, x3 e x5. Em x2, x4 e x6 foi visto padrão contínuo com tendência a estabilização e formação de duas regiões modais. Os dados simulados remetiam ao que era esperado, podendo ser usado nas análises. No segundo capítulo, foi analisada a eficiência da predição por meio da capacidade preditiva (r2) e da raiz do erro quadrado médio (REQM) das técnicas RR-BLUP, árvore de decisão, bagging, boosting e random forest em cinco diferentes conjuntos de marcadores. Como mencionado anteriormente, os genes controladores de efeito menor estavam distribuídos equitativamente nos oito primeiros grupos de ligação (GL) e os quatro de efeito maior estavam nos quatro primeiros GL. Como foram simulados dez grupos de ligação com 201 marcas codominantes em cada, havia 1608 marcas diretamente ou indiretamente relacionadas aos genes e 402 marcas desnecessárias a predição. A formação dos conjuntos de marcadores levou essas informações como critério. No grupo um, estavam todos os marcadores. No grupo dois, os 1608 marcadores diretamente ou indiretamente relacionados aos genes. No grupo três, os quarenta e quatro marcadores dentro dos genes e os 402 marcadores não relacionados. No grupo quatro, os 402 marcadores desnecessários a predição. No grupo cinco, os quarenta e quatro marcadores diretamente relacionados aos genes controladores. Ao se analisar o r2 e REQM das técnicas, observou-se que a maioria delas promoveu resultados péssimos na situação quatro. A técnica árvore de decisão chegou a não obter os valores em algumas repetições. Como nessa situação não havia marcadores relacionados as características, era esperado que em nenhuma técnica fosse possível obter resultados. A explicação veio pelo RR-BLUP. Ele forneceu o efeito dos marcadores sobre as características. Foram encontrados efeitos falsos positivos relacionados às 402 marcas desnecessárias a predição. Continuando-se as análises, foi observado que as técnicas bagging e boosting obtiveram os maiores valores de r2 entre todas as técnicas (0,880 e 0,815, respectivamente) e os menores valores de REQM (5,852 e 5,853). A maioria dos valores foi obtida do quinto conjunto de dados e, ou não diferiu significativamente dos outros conjuntos, ou foi diferente apenas do conjunto quatro (sem marcadores relacionados). Resultado diferente foi observado para a random forest. Ela foi a mais sensível, tanto aos diferentes subconjuntos de marcadores quanto as diferentes características. Para o quinto conjunto de marcadores, obteve r2 para as características x3, x4, x5 e x6, respectivamente iguais a 0,371; 0,720; 0,514 e 0,788. Para REQM, obteve, naquele mesmo conjunto, em x 3 e x5, respectivamente, 10,280 e 8,371. Esses valores foram os melhores e diferentes significativamente dos obtidos para as mesmas características nos outros quatro conjuntos. Os resultados obtidos mostram que o uso de diferentes técnicas exploram melhor o conjunto de dados. Também mostra que o descarte de marcadores desnecessários não prejudica o processo preditivo, algumas vezes até o melhora, sendo recomendável. Trabalhos futuros deveriam se concentrar na identificação dos marcadores diretamente envolvidos com as características. Palavras-chave: Simulação. Capacidade preditiva. Raiz do erro quadrado médio. RR- BLUP. Aprendizado de máquina. |