Redução de dimensionalidade em predições biométricas

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Guimarães, Patrick Wöhrle
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://locus.ufv.br/handle/123456789/32584
https://doi.org/10.47328/ufvbbt.2024.215
Resumo: A computação aplicada tem um papel crucial no Melhoramento Genético seja no se- quenciamento e análise de genoma, na identificação de marcadores moleculares ou no aprimoramento de técnicas de inteligência computacional. Um dos domínios do Melhoramento Genético que tem feito extenso uso de dados reais e simulação é a Bi- ometria. Um dos focos da Biometria é a seleção de modelos eficientes para o processo de Seleção Genômica Ampla (GWS) utilizando marcadores moleculares (SNPs) e esse procedimento apresenta vários desafios. Esse estudo buscou fornecer respostas a dois (02) desses desafios: a) comparar eficiência de diferentes técnicas de Predição em Bio- metria para identificação de marcadores moleculares (SNPs) relevantes para controle genético de características simuladas; b) estabelecer procedimentos de Redução de Di- mensionalidade (ou Feature Selection) de conjunto de marcadores moleculares (SNPs) para fins de Predição de características complexas simuladas, considerando intera- ção gênica, dominância e herdabilidade diferenciada. Para elucidar tais problemas foram gerados dados por simulação (via programa Genes) do tipo marcadores mo- leculares (Single Nucleotide Polymorphisms - SNPs) e esse conjunto de dados reflete os principais problemas encontrados nesta linha de investigação (alta dimensionalidade, não-linearidade e multicolinearidade). A comparação da eficiência foi feita através da avaliação da acurácia seletiva de nove (09) modelos de Predição que seguem di- ferentes paradigmas no contexto da Biometria. Como principais resultados, pode-se destacar o aumento da eficiência preditiva à medida que o ruído dos dados diminui, a superioridade do paradigma da árvore (para baixos níveis de ruído, BOO) e a efi- ciência do paradigma da rede neural (para altos níveis de ruído, RBF). O segundo desafio teve como ponto de partida o fato de que Redução de Dimensionalidade (RD) tem se tornado uma ferramenta fundamental para melhorar a eficiência de modelos de Predição e mais especificamente ainda a classe de modelos do tipo Feature Selection (FS). Visando contribuir com esse processo, este estudo fez uso três (03) técnicas de Feature Selection (Bagging, Sonda e Stepwiswe) aplicadas a um modelo do tipo (Random Forest - RF). Os resultados obtidos sinalizam melhorias na acurácia seletiva (R2 ) entre 10% e 28% e uma melhor adequação de dois (02) modelos (Bagging e Stepwiswe) em detrimento a um modelo (Sonda), em captar de maneira mais adequada as situações que envolvem o controle gênico de uma característica. Por fim,a medida que o ruído diminui, a acurácia seletiva aumenta (isso vale para modelos com e sem RD) e as taxas de crescimento da acurácia seletiva se tornam decrescentes. Palavras-chave: Modelos de Predição. Redução de Dimensionalidade. Feature Selec- tion. SNPs. Biometria.