Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Ferreira, João Paulo da Cruz [UNIFESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Paulo
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://hdl.handle.net/11600/72181
Resumo: Objetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas.