Integração de dados transcriptômicos e metabolômicos de cana-de-açúcar (Saccharum spp.) por métodos de machine learning para predição fenotípica

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Patrício, André Luís
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/11/11137/tde-02082024-092421/
Resumo: A cana-de-açúcar, uma gramínea poliploide, é crucial na conversão de energia solar em energia química e na produção de açúcar e bioetanol. Seu melhoramento tem focado em aumentar a sacarose e a eficiência de moagem. As variedades modernas originam-se de cruzamentos entre S. officinarum e S. spontaneum, e têm um genoma complexo, poliploide e aneuploide. Tecnologias ômicas, como transcriptômica e metabolômica, são fundamentais para entender mecanismos biológicos e aprimorar as cultivares. A integração de dados dessas tecnologias ajuda a identificar genes chave para características desejáveis. Técnicas de Machine Learning (ML), como Random Forest (RF), Support Vector Machines (SVM), e Multilayer Perceptron (MLP), são promissoras na integração de dados multi-ômicos, auxiliando na criação de modelos preditivos. No experimento realizado na Sugar Research Burdekin Station, Queensland, em agosto de 2017, 24 cultivares híbridas foram plantadas e neste trabalho foram avaliados o transcriptoma e metaboloma. Amostras foram coletadas em 2018, analisadas para medir sólidos solúveis e açúcar total recuperável, e submetidas a RNA-seq. Na análise metabolômica, 73 metabólitos foram mensurados e analisados com o MetaboAnalyst 4.0. Para aprendizado de máquinas, testaram-se RF, SVM, e MLP. O MLP teve o maior poder preditivo. Em seguida, o método de integração de gradientes foi usado para identificar a importância dos genes em relação a cada metabólito. Finalmente, a análise de enriquecimento utilizou o pacote GSEApy analisando termos de Gene Ontology para identificar padrões significativos. A análise de metabólitos agrupados permitiu uma compreensão aprofundada dos genes e vias metabólicas essenciais, relacionados a fotossíntese, incluindo plastoglobulos e plastídeos, clorofila nos complexos de captação de luz, a importância da membrana tilacoide e da membrana interna do cloroplasto e fixação de carbono em organismos fotossintéticos. Esses termos abrangem aspectos da fotossíntese C4 e a resposta da cana-de-açúcar a diferentes intensidades de luz. Também foram encontrados genes e vias metabólicas relacionadas ao apoplasto como metabolismo de frutose e manose, metabolismo de galactose e a via da glicólise e gluconeogênese. Além disso, os resultados apontaram para a significativa relação entre os genes identificados e processos vitais, como o metabolismo de nitrogênio e carbono, e síntese e armazenamento de sacarose. A síntese de pectina, o metabolismo de galactose e vias relacionadas à produção de fenilpropanoides demonstram que o modelo capturou informações importantes sobre a parede celular, bem como lignificação, demonstrando o potencial dessas descobertas para futuras aplicações no melhoramento de cultivares. O estudo demonstrou êxito no uso de aprendizado de máquinas, especificamente o Perceptron de multicamadas, para integrar dados de transcriptômica e metabolômica, revelando processos cruciais para o desenvolvimento da cana-de-açúcar e identificando características com potencial de melhoramento agronômico.