Identificação de genes novos de Drosophila utilizando machine learning

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Goldstein, Gabriel Nassar Reich
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/41/41131/tde-09062022-181940/
Resumo: Genes novos são definidos por sua presença em um táxon e ausência em táxons irmãos. Estes genes possuem grande importância biológica e estão envolvidos em processos de alta pressão seletiva, sendo expressos em tecidos como cérebro e testículo. Há uma variedade de mecanismos genéticos que podem levar à geração de genes novos, como duplicações e retrotransposições por exemplo, mas a maioria dos genes novos é derivada de duplicações. As funções exatas destes genes nos organismos ainda estão sendo estudadas, mas alguns trabalhos já mostraram relação com resolução de conflitos sexuais, por exemplo. Apesar disto, existem uma série de características biológicas que são sabidamente diferentes entre genes novos e antigos. Um exemplo disso é o perfil de expressão destes grupos, já que genes novos se expressam majoritariamente na gametogênese masculina e genes antigos são expressos de maneira generalista. O principal método de datação de genes para identificação de genes novos utiliza sintenia, que é o fenômeno de conservação da ordem e conteúdo gênico de uma região no genoma que ocorre em espécies relacionadas, e parcimônia ao comparar genomas de espécies relacionadas para datar todos os genes de uma espécie focal. Apesar da precisão do método, ele é extremamente dependente da montagem e anotação do genoma de interesse, o que limita sua aplicação para espécies modelo que tem uma anotação manual e curada. Com estes fatos em mente, propomos neste trabalho um método de identificação de genes novos que utiliza informações biológicas para separar genes novos de antigos através do uso de machine learning. Os algoritmos de machine learning são aqueles capazes de mudar com experiência e são capazes de identificar padrões complexos e identificar classes a partir de uma diversidade de informações. Com isso, treinamos um modelo com o algoritmo de random forest na espécie modelo Drosophila melanogaster e obtivemos 0.508 de precision e 0.718 de recall com dados que geramos. Além disso, identificamos os 1523 genes novos de D. pseudoobscura utilizando o método já existente para que possamos utilizar esta espécie como segundo ponto de controle do nosso método.