Representação, classificação e interpretação de sequências proteicas do vírus da dengue
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Outros Autores: | , |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal do Amazonas
Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.ufam.edu.br/handle/tede/8206 |
Resumo: | O vírus da dengue é responsável por causar uma infecção muito comum em alguns países da América Latina e do Oeste do Pacífico, desencadeando diversos sintomas, tais como, febre, dor de cabeça, náuseas, vômitos e dores musculares. Os níveis da infecção podem ser divididos em: febre, febre hemorrágica e síndrome de choque, sendo os dois últimos casos associados a fatalidades. As causas que levam os hospedeiros a desenvolverem casos graves da infecção não são completamente conhecidas. No entanto, as proteínas que constituem o material genético do vírus da dengue são uma potencial fonte para extração de informação, um exemplo disso são as características presentes nessas que permitem diferenciar o vírus entre subclasses de sorotipos e genótipos, além de conter informações filogenéticas. Portanto, é aceitável assumir que essas estruturas guardem características capazes de elevar a compreensão sobre a dengue severa. O desafio de trabalhar com proteínas é a dificuldade de capturar características de interesse, visto que estas ocorrem na forma de padrões em pequenas regiões funcionais espalhadas dentro da sequência. Diante disso, representações de proteínas em estruturas onde padrões possam ser facilmente acessados passa a ser uma alternativa viável para o tratamento de dados deste tipo. Nesta pesquisa, propomos uma metodologia para identificar padrões em proteínas da dengue associados a dengue severa em hospedeiros humanos. O método baseia-se na representação de proteínas da dengue em matrizes de co-ocorrências de códons. Os algoritmos Random Forests (RF) e Convolutional Neuural Network (CNN) são empregados na classificação das matrizes rotuladas como dengue clássica/severa. Posteriormente, os classificadores são interpretados pelo método SHAP Values que, por sua vez, evidência quais co-ocorrências aumentam a probabilidade de dengue severa na amostra. Os resultados das interpretações são agrupados em gráficos de importância que permitem evidenciar os padrões de co-ocorrência de códons associadas a dengue severa. Classificamos de forma independente cada uma das dez proteínas da dengue. Os experimentos utilizando a RF alcançaram resultados AUC que variam entre 0.70 e 0.83. Os melhores resultados foram obtidos a partir da classificação de matrizes da proteína E em 25 resultados (cinco experimentos com cinco folds de validação cruzada cada), atingindo um AUC de 0.83 +- 0.02 com 95% de intervalo de confiança. Os testes estatísticos de Levene, Shapiro-Wilk, ANOVA e Tukey foram utilizados para testar se as médias das métricas calculadas nos 25 resultados eram diferentes entre as proteínas, com isso, constatou-se que os resultados da proteína E são estatisticamente distintos dos resultados das outras proteínas, dando indícios de que a proteína E caracteriza melhor a dengue severa. Por meio do método proposto, conseguimos novas evidências sobre o desenvolvimento da dengue severa, associando-a diretamente a padrões frequentes de co-ocorrência de códons. Nosso método permitiu encontrar a existência de co-ocorrências elevadas na proteína E que podem estar associadas ao desencadeamento da dengue severa no hospedeiro. Além disso, em explorações mais granulares, observamos grupos de co-ocorrências que aumentam a probabilidade de dengue severa para os distintos sorotipos. Esses resultados podem desempenhar um papel importante na proposta de novos tratamentos, assim como ser alvo de debate sobre novas teorias referentes ao desenvolvimento de dengue severa em hospedeiros humanos. |