Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Simas, Gisele Moraes
Orientador(a): Araújo, Ricardo Matsumura de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pelotas
Programa de Pós-Graduação: Programa de Pós-Graduação em Computação
Departamento: Centro de Desenvolvimento Tecnológico
País: Brasil
Palavras-chave em Português:
CNN
GAN
Área do conhecimento CNPq:
Link de acesso: http://guaiaca.ufpel.edu.br/handle/prefix/8731
Resumo: A seleção de biomarcadores gênicos pode beneficiar o gerenciamento clínico de pacientes e fornecer ’insights’ para a compreensão de doenças. No entanto, a análise de dados de expressão gênica ainda é um desafio, devido à: maldição de dimensionalidade (alta quantidade de features e pequeno número de amostras); presença de relações complexas não lineares; alto ruído de fundo; e dificuldade de análise de datasets em conjunto (com diferentes ruídos e escalas). Este trabalho visa analisar métodos de Aprendizagem de Máquina Profunda e Rasa para classificação de amostras e seleção de genes relevantes em datasets de microarray de diferentes tecidos. São explorados: as Convolutional Neural Networks (CNNs); os Vision Transformers; a Generative Adversarial Network (GAN); e a Multilayer Perceptron (MLP). Propomos a adoção do método Transcriptograma para a análise de redes de interação gênica e obtenção de um ordenamento de genes que possa ser explorado pelas CNNs. Além disso, propomos uma abordagem, nomeada de MLPEns, que explora o dropout para tratar um modelo de Rede Neural como um ensemble de modelos, visando aproveitar a alta capacidade de generalização dos ensembles. Para a seleção de genes relevantes foram analisados: os coeficientes de Support Vector Machines (SVMs); o Boruta Shap; e os pesos da MLPEns. Nossos resultados demonstram que, ao contrário da tendência recente na área, alguns métodos de Aprendizagem Rasa (como o SVM Linear L2 e a Regressão Ridge) fornecem resultados estatisticamente equivalentes à nossa melhor abordagem de Aprendizagem Profunda, tendo menor tempo de execução e simplicidade na interpretabilidade dos resultados; sendo, portanto, percebidos como as melhores opções para a análise desse tipo de dados. A abordagem de empregar o Transcriptograma possibilitou melhorar a acurácia da CNN; e a MLPEns alcançou resultados estatisticamente equivalentes às melhores abordagens analisadas.