Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer

Simas, Gisele Moraes

Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Simas, Gisele Moraes
Orientador(a):	Araújo, Ricardo Matsumura de
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Pelotas
Programa de Pós-Graduação:	Programa de Pós-Graduação em Computação
Departamento:	Centro de Desenvolvimento Tecnológico
País:	Brasil
Palavras-chave em Português:	Deep learning Redes neurais CNN GAN Dropout Boruta shap Câncer Biomarcadores Expressão gênica Neural networks Cancer Biomarkers Gene expression
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	http://guaiaca.ufpel.edu.br/handle/prefix/8731
Resumo:	A seleção de biomarcadores gênicos pode beneficiar o gerenciamento clínico de pacientes e fornecer ’insights’ para a compreensão de doenças. No entanto, a análise de dados de expressão gênica ainda é um desafio, devido à: maldição de dimensionalidade (alta quantidade de features e pequeno número de amostras); presença de relações complexas não lineares; alto ruído de fundo; e dificuldade de análise de datasets em conjunto (com diferentes ruídos e escalas). Este trabalho visa analisar métodos de Aprendizagem de Máquina Profunda e Rasa para classificação de amostras e seleção de genes relevantes em datasets de microarray de diferentes tecidos. São explorados: as Convolutional Neural Networks (CNNs); os Vision Transformers; a Generative Adversarial Network (GAN); e a Multilayer Perceptron (MLP). Propomos a adoção do método Transcriptograma para a análise de redes de interação gênica e obtenção de um ordenamento de genes que possa ser explorado pelas CNNs. Além disso, propomos uma abordagem, nomeada de MLPEns, que explora o dropout para tratar um modelo de Rede Neural como um ensemble de modelos, visando aproveitar a alta capacidade de generalização dos ensembles. Para a seleção de genes relevantes foram analisados: os coeficientes de Support Vector Machines (SVMs); o Boruta Shap; e os pesos da MLPEns. Nossos resultados demonstram que, ao contrário da tendência recente na área, alguns métodos de Aprendizagem Rasa (como o SVM Linear L2 e a Regressão Ridge) fornecem resultados estatisticamente equivalentes à nossa melhor abordagem de Aprendizagem Profunda, tendo menor tempo de execução e simplicidade na interpretabilidade dos resultados; sendo, portanto, percebidos como as melhores opções para a análise desse tipo de dados. A abordagem de empregar o Transcriptograma possibilitou melhorar a acurácia da CNN; e a MLPEns alcançou resultados estatisticamente equivalentes às melhores abordagens analisadas.

Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer

Registros relacionados