Predição e importância de preditores em abordagens fundamentadas em inteligência computacional e aprendizado de máquinas
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Viçosa
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://locus.ufv.br//handle/123456789/28761 https://doi.org/10.47328/ufvbbt.2021.070 |
Resumo: | O estudo da importância das características permite ao melhorista orientar estratégias para selecionar e acelerar o progresso do melhoramento genético. Embora, a avaliação simultânea de características no programa de melhoramento de plantas forneça uma grande quantidade de informações, identificar qual característica fenotípica é a mais importante é um desafio para o melhorista. Assim, o objetivo deste trabalho foi estimar a melhor abordagem para predição e estabelecer uma rede de melhor poder preditivo via metodologias baseadas em regressão, inteligência artificial e aprendizado de máquinas. A quantificação da importância de variáveis através da rede Percepton Multicamadas (MLP) pode ser obtida através de (i) algoritmo de GARSON (1991) modificado por GOH (1995) (GA), que consiste no particionamento dos pesos de conexão de rede neural para determinar a importância relativa de cada variável de entrada na rede. (ii) Avaliação da importância de variáveis (entrada) através do impacto da desestruturação ou perturbação da informação de uma determinada entrada sobre a estimativa do 2 . Essa importância foi estimada trocando informações ou tornando o valor fenotípico de cada característica constante e verificando as mudanças nas estimativas de 2 . Quando os valores de uma característica são perturbados, o valor de 2 diminui, indicando que a característica é importante em relação às outras para fins de predição. A importância de variáveis utilizando a rede função de base radial (RBF) foi estimado conforme a MLP. Para aprendizado de máquina foram usadas árvores de decisão, bagging, floresta aleatória e boosting. A qualidade do modelo preditivo foi ajustada determinado com base em 2 , e o MSE foi usado para quantificar a importância das características fenotípicas. A importância da característica explicativa foi determinada estimando o aumento percentual no MSE. No primeiro artigo, avaliou-se a importância de características auxiliares de uma característica principal com base em informações fenotípicas e estrutura genética previamente conhecida usando inteligência computacional e aprendizado de máquina para desenvolver ferramentas preditivas para o melhoramento genético. Foram simulados uma população F 2 representada por 500 indivíduos, obtidos a partir de um cruzamento entre pais homozigotos contrastantes. Os caracteres fenotípicos simulados apresentam com base em médias previamente estabelecidas e estimativas de herdabilidade (30%, 50% e 80%). As características foram distribuídas em um genoma com 10 grupos de ligação, considerando dois alelos. Foram considerados quatro cenários diferentes. Para a característica principal (PT1), a herdabilidade constitui-se de 50%, e 40 locos de controle foram distribuídos em cinco grupos de ligação. A simulação de outras características de controle fenotípico com a mesma complexidade da característica principal, mas sem qualquer relação genética com ele e sem pleiotropia ou uma ligação fatorial entre os loci de controle. Essas características compartilhavam grande número de locos de controle com a característica principal, mas podiam ser distinguidas pela ação diferencial do ambiente sobre elas, conforme refletido nas estimativas de herdabilidade (30%, 50% e 80%). Os 2 variaram de 44,0% - 83,0% e 79,0% - 94,0%, para inteligência computacional e aprendizado de máquina, respectivamente. Na rede MLP os 2 foram 83,03%, 77,89%, 75,49% e 82,14% para os cenários 1, 2, 3 e 4. Pela abordagem GA em todos os cenários, as contribuições relativas de PT5 e PT2 na previsão de PT1 foram quantificadas como maiores e menores, respectivamente. Para a rede RFB a permutação foi eficiente na quantificação da contribuição relativa de PT5 como um fator importante com base na redução na estimativa de 2 quando a informação foi perturbada e PT2 foi identificado como o traço menos importante. O PT5 foi estimado como o traço fenotípico mais importante em todas as metodologias de aprendizado de máquina e em todos os cenários. As contribuições relativas de características auxiliares em diferentes cenários em programas de melhoramento de plantas podem ser predito com eficiência usando inteligência computacional e aprendizado de máquina. No segundo artigo, o objetivo foi estimar a melhor abordagem para predição e estabelecer uma rede de melhor poder preditivo em arroz irrigado por inundação via tais metodologias. Os experimentos foram realizados nos municípios de Leopoldina, Lambari e Janaúba, estado de Minas Gerais, Brasil. Foram utilizado 75 genótipos de arroz irrigado por inundação. As características avaliadas foram rendimento de grãos, comprimento da panícula e relação comprimento x largura de grãos, que foram utilizadas como variáveis de resposta e outras dez variáveis explicativas. A abordagem de inteligência artificial em Leopoldina proporcionou maior estimativa para as variáveis preditivas PL e GY no procedimento RBF, 83,44% e 78,90%, respectivamente. Em Leopoldina e Lambari, para a variável resposta LGW, obteve estimativa máxima de 2 de aproximadamente 100% por regressão múltipla e abordagens de inteligência artificial e em Janaúba, de 62%. A contribuição relativa de caracteres auxiliares em arroz por meio de inteligência computacional e aprendizado de máquina mostrou-se eficiente para determinar a importância relativa de variáveis em arroz irrigado por inundação. Os caracteres indicados para auxiliar na tomada de decisão são floração, número de grãos cheios por panículas e comprimento de panículas para este estudo. No procedimento de boosting, as variáveis que se destacaram foram HP, GL, PL, GP, WG e LGW em todos os ambientes. Os caracteres indicados para auxiliar na tomada de decisão são floração, número de grãos cheios por panículas e comprimento de panículas para este estudo. No terceiro artigo, avaliou-se a contribuição relativa de caracteres auxiliares em aveia branca por meio de tais metodologias. Os experimentos foram conduzidos na região Sul do Brasil. Foram avaliados 78 genótipos de aveia branca avaliados anos de 2008 e 2009. Em cada ano, constitui-se de sem e com fungicida, de forma que foram estabelecidos modelos de predição em quatro conjuntos experimentais. O delineamento foi em blocos casualizados com três repetições. As características avaliadas foram rendimento de grãos que foram utilizadas como variável resposta e dez outras como variáveis explicativas. O procedimento bagging e boosting, verifica- se que as estimativas de 2 foram superiores a 92.70% e 80%, respectivamente. O 2 variaram de 30,14% - 96,45% e 10,57% - 94,61%, para inteligência computacional e aprendizado de máquina, respectivamente. Os caracteres indicados para auxiliar na tomada de decisão são estatura de planta, severidade de ferrugem da folha e percentual de acamamento para este estudo. Acredita-se que, com a utilização de procedimento para quantificar a importância de variáveis, as técnicas fundamentadas em inteligência computacional e aprendizado de máquina possam ser facilmente empregadas sem demandar recursos computacionais sofisticados. Palavras-chave: Rede Neurais Artificiais. Árvore de decisão. Coeficiente de Determinação. Importância de Variáveis. |