Transcriptoma de Leishmania (V.) braziliensis por RNA-Seq: montagem de transcriptomas, enriquecimento de orfeoma, análise de expressão e anotação dos genes diferencialmente expressos

Detalhes bibliográficos
Ano de defesa: 2014
Autor(a) principal: Maciel, Talles Eduardo Ferreira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.locus.ufv.br/handle/123456789/6490
Resumo: Os parasitos do gênero Leishmania, que causam um amplo espectro de desordens clínicas referidas comumente como leishmanioses, são um grande problema de saúde pública em vários países. A leishmaniose tegumentar americana está entre as endemias de maior importância em saúde pública no Brasil, devido a fatores como: ampla distribuição pelo território nacional, ocorrência de formas clínicas graves e limitações referentes tanto ao diagnóstico como ao tratamento, sendo a L. (V.) braziliensis uma das principais espécies de importância epidemiológica para a LTA no Brasil. Atualmente existem diversas tecnologias que permitem o sequenciamento do DNA em larga escala, sendo a plataforma 454/Roche utilizada neste trabalho. Assim, este trabalho utilizou ferramentas de bioinformática para montar e analisar o transcriptoma de L. (V.) braziliensis através do sequenciamento do transcriptoma de dois isolados (ET e NSL), que apresentam diferença significativa na virulência em modelo murino. Foram preparadas duas formas evolutivas para cada isolado: metacíclica (MET) e procíclica (PRO). Desta forma foram analisadas quatro bibliotecas. Após sequenciamento, os dados foram visualizados com o programa fastQC, tratados com FASTX- Tollkit e Prinseq-Lite e montados com programa Newbler. A montagem (Assembly) foi efetuada de duas maneiras distintas: primeiro efetuou-se a montagem com as reads de cada biblioteca e posteriormente, as reads das quatro bibliotecas foram alocados em arquivo único para realização de um novo assembly. As open reading frame (ORFs), que são regiões com potencial para codificar proteínas, foram preditas utilizando as sequências resultantes da montagem. A anotação foi efetuada através de duas abordagens: transferência de informações do genoma anotado automaticamente para as ORFs preditas e pela abordagem baseada em homologia de sequências através da ferramenta de anotação funcional Blast2GO. Após anotação, efetuou-se a análise da expressão gênica diferencial através de duas abordagens diferentes: a primeira, utilizou o método de Blind do pacote DESeq do R/Bioconductor e a segunda utilizou uma abordagem baseada em RPKM. Foram produzidas 3.095.724 reads, sendo 916.546, 589.554, 1.083.312 e 506.312 sequências para ET-MET (biblioteca 1), ET- PRO (biblioteca 2), NSL-MET (biblioteca 3) e NSL-PRO (biblioteca 4), respectivamente. Após o tratamento, utilizou-se para o restante das análises 2.899.230 sequências. Com o intuito de validar algumas das análises, foi utilizado neste trabalho um segundo conjunto de reads (Illumina) baixado do banco de dados SRA (Sequence Read Archive) indexado ao NCBI, sendo este composto por 52.014.768 de reads paired end. Após o tratamento, utilizou- se para o restante das análises 47.377.233 de reads. Os resultados das análises com as reads sequenciadas neste trabalho e com os contigs montados, tal como o mapeamento destes no genoma anotado de L. (V.) braziliensis, produziu novas informações ao orfeoma anotado automaticamente de L. (V.) braziliensis. Após montagem, obteve-se 14.362, 13.145, 14.899 e 11.434 contigs maiores que 100 pb para as bibliotecas 1, 2, 3 e 4, respectivamente. Obteve-se como resultado da montagem, considerando as reads de todas as bibliotecas, 14.017 contigs. As ORFs preditas à partir dos contigs que não mapearam no genoma anotado foram utilizados para busca de novos genes de L. (V.) braziliensis. Como resultado, foi possível encontrar seis novos genes, 117 possíveis ORFs sem hits no banco de dados nr e 85 ORFs que, por algum motivo, deixaram de fazer parte do genoma anotado. Foram encontrados, ao se comparar as reads obtidas neste trabalho com o genoma anotado, 6.293 sítios com identidades diferentes, que pode ser devido a divergência alélica entre os isolados analisados ou devido ao polimorfismos de nucleotídeo único (SNPs).