Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais

Bibliographic Details
Main Author: Molan, André Luiz [UNESP]
Publication Date: 2022
Format: Doctoral thesis
Language: por
Source: Repositório Institucional da UNESP
Download full: http://hdl.handle.net/11449/238244
Summary: O neuroblastoma é o tumor sólido extracraniano mais comum em indivı́duos com idade inferior a 15 anos. É uma doença extremamente heterogênea, podendo regredir ou evoluir de forma espontânea e, em alguns casos, se mostrar bastante agressiva. Alguns sistemas como o International Neuroblastoma Staging System (INSS) e o International Neuroblastoma Patho- logy Classification (INPC), permitem classificar o estágio da doença, relacionando-o a um prognóstico favorável ou desfavorável com base em caracterı́sticas histológicas. Com o surgimento das tecnologias de sequenciamento NGS, associadas a técnicas como o RNA-seq, mo- delos preditivos robustos e versáteis puderam ser desenvolvidos e aplicados ao câncer. Várias abordagens para o estudo de neoplasias pediátricas, entretanto, foram adaptadas de pesquisas oncológicas relacionadas a adultos. Porém, cânceres infantis apresentam taxas de mutações recorrentes muito baixas em relação a adultos, demandando novas abordagens para melhor compreender vulnerabilidades e etiologias especı́ficas. Nos últimos anos, um aumento de memória, poder de processamento e capacidade de armazenamento aumentaram a importância da computação para a biologia, tornando possı́vel a implementação de abordagens capazes de resolver problemas antes considerados difı́ceis. Dentre elas, destaca-se o aprendizado de máquina, o qual permite modelar a relação entre um conjunto de valores observáveis (entradas) e um grupo de variáveis relacionadas a estes valores (saı́das). Neste contexto, utilizamos regressão logı́stica, redes neurais artificiais com multilayer perceptron e árvore de decisão, todas técnicas de aprendizado supervisionado, para a análise de assinaturas transcricionais em dados de RNA-seq de pacientes com neuroblastoma. Desenvolvemos diferentes modelos preditivos baseados nas variáveis sobrevivência, progressão do tumor, alto risco e classe tumoral, com o propósito de caracterizar prognósticos clı́nicos favoráveis e desfavoráveis. Aplicamos recursos de bibliotecas das linguagens Python e R na criação dos modelos, seleção de features e ba- lanceamento dos dados. Dentre os principais resultados, conseguimos, por exemplo, predizer a sobrevivência (vivo ou morto) com 91,33% de acurácia. Além disso, para compreendermos biologicamente o melhor modelo encontrado, conduzimos uma análise de enriquecimento funcional em termos de processos biológicos do Gene Ontology e ontologias relacionadas à doenças - este, através da biblioteca DOSE da linguagem R. Isso nos permitiu associar as fe- atures (subconjunto de transcritos utilizados pelo modelo) a processos biológicos relacionados à funções de desenvolvimento e divisão celular, além de ontologias de doenças referentes ao neuroblastoma.
id UNSP_96a53ce6b3eb208fa6b2313fe3fe12ca
oai_identifier_str oai:repositorio.unesp.br:11449/238244
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionaisConstruction of a predictive model for the prognosis of neuroblastoma patients based on transcriptional signaturesAprendizado de máquinaAssinaturas transcricionaisNeuroblastomaPrediçãoPrognósticoO neuroblastoma é o tumor sólido extracraniano mais comum em indivı́duos com idade inferior a 15 anos. É uma doença extremamente heterogênea, podendo regredir ou evoluir de forma espontânea e, em alguns casos, se mostrar bastante agressiva. Alguns sistemas como o International Neuroblastoma Staging System (INSS) e o International Neuroblastoma Patho- logy Classification (INPC), permitem classificar o estágio da doença, relacionando-o a um prognóstico favorável ou desfavorável com base em caracterı́sticas histológicas. Com o surgimento das tecnologias de sequenciamento NGS, associadas a técnicas como o RNA-seq, mo- delos preditivos robustos e versáteis puderam ser desenvolvidos e aplicados ao câncer. Várias abordagens para o estudo de neoplasias pediátricas, entretanto, foram adaptadas de pesquisas oncológicas relacionadas a adultos. Porém, cânceres infantis apresentam taxas de mutações recorrentes muito baixas em relação a adultos, demandando novas abordagens para melhor compreender vulnerabilidades e etiologias especı́ficas. Nos últimos anos, um aumento de memória, poder de processamento e capacidade de armazenamento aumentaram a importância da computação para a biologia, tornando possı́vel a implementação de abordagens capazes de resolver problemas antes considerados difı́ceis. Dentre elas, destaca-se o aprendizado de máquina, o qual permite modelar a relação entre um conjunto de valores observáveis (entradas) e um grupo de variáveis relacionadas a estes valores (saı́das). Neste contexto, utilizamos regressão logı́stica, redes neurais artificiais com multilayer perceptron e árvore de decisão, todas técnicas de aprendizado supervisionado, para a análise de assinaturas transcricionais em dados de RNA-seq de pacientes com neuroblastoma. Desenvolvemos diferentes modelos preditivos baseados nas variáveis sobrevivência, progressão do tumor, alto risco e classe tumoral, com o propósito de caracterizar prognósticos clı́nicos favoráveis e desfavoráveis. Aplicamos recursos de bibliotecas das linguagens Python e R na criação dos modelos, seleção de features e ba- lanceamento dos dados. Dentre os principais resultados, conseguimos, por exemplo, predizer a sobrevivência (vivo ou morto) com 91,33% de acurácia. Além disso, para compreendermos biologicamente o melhor modelo encontrado, conduzimos uma análise de enriquecimento funcional em termos de processos biológicos do Gene Ontology e ontologias relacionadas à doenças - este, através da biblioteca DOSE da linguagem R. Isso nos permitiu associar as fe- atures (subconjunto de transcritos utilizados pelo modelo) a processos biológicos relacionados à funções de desenvolvimento e divisão celular, além de ontologias de doenças referentes ao neuroblastoma.Neuroblastoma is the most common extracranial solid tumor in children. It is an extremely heterogeneous disease, which may spontaneously regress or evolve and, in some cases, be quite aggressive. Some systems such as the International Neuroblastoma Staging System (INSS) and the International Neuroblastoma Pathology Classification (INPC), make it possible to classify the stage of the disease, relating it to a favorable or unfavorable prognosis based on histological characteristics. NGS sequencing technologies, associated to techniques such as RNA-seq, make it possible to develop robust and versatile predictive models applied to cancer studies. Several approaches to the study of pediatric neoplasms have been adapted from adult oncology research. However, childhood cancers have very low rates of recurrent mutations in relation to adults, requiring new approaches to better understand vulnerabilities and specific etiologies. In the last years, increased memory, processing power and storage capacity have increased the importance of computer science to biology, making it possible to implement approaches that can solve problems once considered too dificult. In this scenario, we highlight machine learning techniques, which allows us to model the relationship between a set of observable values (input) and a group of variables related to these values (outputs). In this context, we used logistic regression, artificial neural networks with multilayer perceptron and decision tree, all supervised learning techniques, for the analysis of transcriptional signatures in RNA-seq data from patients with neuroblastoma. We developed different predictive models based on the variables survival, tumor progression, high risk and tumor class in order to characterize favorable and unfavorable clinical outcomes. We applyed resources from Python and R programming languages libraries to create the models, select features and balance the datasets. Among the main results, we were able, for example, to predict survival (alive or dead) with 91.33% accuracy. Furthermore, in order to biologically understand the best model found, we conducted a functional enrichment analysis in terms of biological processes from Gene Ontology and ontologies related to diseases- this one, by DOSE library from R language. This made it possible to associate the features (subset of transcripts used by the model) to biological processes related to developmental functions and cell division, as well as disease ontologies related to neuroblastoma.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 88882.433297/2019-01Universidade Estadual Paulista (Unesp)Rybarczyk Filho, José LuizUniversidade Estadual Paulista (Unesp)Molan, André Luiz [UNESP]2022-12-15T18:56:53Z2022-12-15T18:56:53Z2022-10-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfapplication/pdfhttp://hdl.handle.net/11449/23824433004064026P9porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2025-10-23T13:04:12Zoai:repositorio.unesp.br:11449/238244Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestrepositoriounesp@unesp.bropendoar:29462025-10-23T13:04:12Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
Construction of a predictive model for the prognosis of neuroblastoma patients based on transcriptional signatures
title Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
spellingShingle Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
Molan, André Luiz [UNESP]
Aprendizado de máquina
Assinaturas transcricionais
Neuroblastoma
Predição
Prognóstico
title_short Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
title_full Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
title_fullStr Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
title_full_unstemmed Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
title_sort Construção de um modelo preditivo para o prognóstico de pacientes com neuroblastoma baseado em assinaturas transcricionais
author Molan, André Luiz [UNESP]
author_facet Molan, André Luiz [UNESP]
author_role author
dc.contributor.none.fl_str_mv Rybarczyk Filho, José Luiz
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Molan, André Luiz [UNESP]
dc.subject.por.fl_str_mv Aprendizado de máquina
Assinaturas transcricionais
Neuroblastoma
Predição
Prognóstico
topic Aprendizado de máquina
Assinaturas transcricionais
Neuroblastoma
Predição
Prognóstico
description O neuroblastoma é o tumor sólido extracraniano mais comum em indivı́duos com idade inferior a 15 anos. É uma doença extremamente heterogênea, podendo regredir ou evoluir de forma espontânea e, em alguns casos, se mostrar bastante agressiva. Alguns sistemas como o International Neuroblastoma Staging System (INSS) e o International Neuroblastoma Patho- logy Classification (INPC), permitem classificar o estágio da doença, relacionando-o a um prognóstico favorável ou desfavorável com base em caracterı́sticas histológicas. Com o surgimento das tecnologias de sequenciamento NGS, associadas a técnicas como o RNA-seq, mo- delos preditivos robustos e versáteis puderam ser desenvolvidos e aplicados ao câncer. Várias abordagens para o estudo de neoplasias pediátricas, entretanto, foram adaptadas de pesquisas oncológicas relacionadas a adultos. Porém, cânceres infantis apresentam taxas de mutações recorrentes muito baixas em relação a adultos, demandando novas abordagens para melhor compreender vulnerabilidades e etiologias especı́ficas. Nos últimos anos, um aumento de memória, poder de processamento e capacidade de armazenamento aumentaram a importância da computação para a biologia, tornando possı́vel a implementação de abordagens capazes de resolver problemas antes considerados difı́ceis. Dentre elas, destaca-se o aprendizado de máquina, o qual permite modelar a relação entre um conjunto de valores observáveis (entradas) e um grupo de variáveis relacionadas a estes valores (saı́das). Neste contexto, utilizamos regressão logı́stica, redes neurais artificiais com multilayer perceptron e árvore de decisão, todas técnicas de aprendizado supervisionado, para a análise de assinaturas transcricionais em dados de RNA-seq de pacientes com neuroblastoma. Desenvolvemos diferentes modelos preditivos baseados nas variáveis sobrevivência, progressão do tumor, alto risco e classe tumoral, com o propósito de caracterizar prognósticos clı́nicos favoráveis e desfavoráveis. Aplicamos recursos de bibliotecas das linguagens Python e R na criação dos modelos, seleção de features e ba- lanceamento dos dados. Dentre os principais resultados, conseguimos, por exemplo, predizer a sobrevivência (vivo ou morto) com 91,33% de acurácia. Além disso, para compreendermos biologicamente o melhor modelo encontrado, conduzimos uma análise de enriquecimento funcional em termos de processos biológicos do Gene Ontology e ontologias relacionadas à doenças - este, através da biblioteca DOSE da linguagem R. Isso nos permitiu associar as fe- atures (subconjunto de transcritos utilizados pelo modelo) a processos biológicos relacionados à funções de desenvolvimento e divisão celular, além de ontologias de doenças referentes ao neuroblastoma.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-15T18:56:53Z
2022-12-15T18:56:53Z
2022-10-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/238244
33004064026P9
url http://hdl.handle.net/11449/238244
identifier_str_mv 33004064026P9
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv repositoriounesp@unesp.br
_version_ 1851766038005284864