Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Andrades, Renan Soares de |
Orientador(a): |
Recamonde-Mendoza, Mariana |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/261761
|
Resumo: |
Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa. |