Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Simas, Gisele Moraes |
Orientador(a): |
Araújo, Ricardo Matsumura de |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pelotas
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Computação
|
Departamento: |
Centro de Desenvolvimento Tecnológico
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
http://guaiaca.ufpel.edu.br/handle/prefix/8731
|
Resumo: |
A seleção de biomarcadores gênicos pode beneficiar o gerenciamento clínico de pacientes e fornecer ’insights’ para a compreensão de doenças. No entanto, a análise de dados de expressão gênica ainda é um desafio, devido à: maldição de dimensionalidade (alta quantidade de features e pequeno número de amostras); presença de relações complexas não lineares; alto ruído de fundo; e dificuldade de análise de datasets em conjunto (com diferentes ruídos e escalas). Este trabalho visa analisar métodos de Aprendizagem de Máquina Profunda e Rasa para classificação de amostras e seleção de genes relevantes em datasets de microarray de diferentes tecidos. São explorados: as Convolutional Neural Networks (CNNs); os Vision Transformers; a Generative Adversarial Network (GAN); e a Multilayer Perceptron (MLP). Propomos a adoção do método Transcriptograma para a análise de redes de interação gênica e obtenção de um ordenamento de genes que possa ser explorado pelas CNNs. Além disso, propomos uma abordagem, nomeada de MLPEns, que explora o dropout para tratar um modelo de Rede Neural como um ensemble de modelos, visando aproveitar a alta capacidade de generalização dos ensembles. Para a seleção de genes relevantes foram analisados: os coeficientes de Support Vector Machines (SVMs); o Boruta Shap; e os pesos da MLPEns. Nossos resultados demonstram que, ao contrário da tendência recente na área, alguns métodos de Aprendizagem Rasa (como o SVM Linear L2 e a Regressão Ridge) fornecem resultados estatisticamente equivalentes à nossa melhor abordagem de Aprendizagem Profunda, tendo menor tempo de execução e simplicidade na interpretabilidade dos resultados; sendo, portanto, percebidos como as melhores opções para a análise desse tipo de dados. A abordagem de empregar o Transcriptograma possibilitou melhorar a acurácia da CNN; e a MLPEns alcançou resultados estatisticamente equivalentes às melhores abordagens analisadas. |