Desenvolvimento de um banco de dados para classificação e análise de sistemas de secreção do tipo IV bacteriano

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Santos Netto, Diogo dos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Serviço de Análise e Apoio a Formação de Recursos Humanos
BR
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/120
Resumo: O T4SS pode ser classificado como uma família de transportadores de macromoléculas envolvidos em diferentes funções bacterianas. A maior subfamília do T4SS é a do sistema de conjugação, o qual permite a transferência de material genético entre bactérias. Analogamente à conjugação, o sistema pode transferir material genético entre bactérias e eucariotos, tal como a transferência de T-DNA de Agrobacterium tumefaciens. O sistema de transporte de proteínas efetoras constitui uma segunda subfamília do T4SS, sendo indispensável nos processos de infecção de vários patógenos de mamíferos e plantas. A última subfamília corresponde ao sistema DNA-uptake/release" que funciona independente de contato com uma célula alvo, representado pelos sistemas VirB/D4 de Campylobacter jejuni e ComB de Helicobacter pylori. Muitas características básicas do T4SS são bem conhecidas, entretanto o conhecimento para a classificação simples e intuitiva ou a anotação apropriada das proteínas ainda não está claro, impedindo em alguns casos estabelecer correlações evolutivas deste sistema em bactérias. O objetivo deste trabalho foi o de organizar, classificar e integrar o conhecimento do T4SS através da construção de um banco de dados especializado para este sistema secretório bacteriano. O banco de dados T4SS foi criado utilizando o SGBD MySQL e a linguagem de programação Perl e com uma interface web (HTML/CGI) que fornece acesso ao banco. Este banco consta atualmente com 43 genomas bacterianos e 10 plasmídeos obtidos do GenBank NCBI, estes organismos vão desde Actinobactérias até Proteobactérias Gram-negativas, incluindo simbiontes e patogênicos. Foi utilizada a metodologia do Bidirectional Best-Hits", com a qual foi possível obter um conjunto mínimo de 75 clusters" com 974 proteínas envolvidas no T4SS. Também, durante este procedimento foram utilizados os algoritmos BlastP, Muscle e ClustalW. O banco foi anotado manualmente utilizando referências cruzadas incluídas nas páginas de anotação do T4SS, tais como UniProtKB/Swiss-Prot, COG, InterPro e TCDB e métodos para predição de regiões de peptídeos sinal e transmembrana. As análises do banco T4SS permitiram criar uma classificação hierárquica e funcional para as proteínas do T4SS, consistindo em cinco grupos: (i) Type IVA Mpf/T4CP; (ii) Type IVA Dtr; (iii) F-type plasmid; (iv) IncP-1-type plasmid; (v) Type IVB Icm/Dot). As 974 proteínas foram anotadas em 68 famílias conhecidas, as quais podem estar envolvidas em conjugação, transferência de T-DNA, transferência de proteínas efetoras, DNA-uptake/release" ou bem serem proteínas bifuncionais. Também, através do método de máxima verossimilhança foram geradas 70 árvores filogenéticas não enraizadas (NR) representando apenas 70 clusters, já que cinco clusters apresentaram apenas duas seqüências de proteínas, cinco árvores filogenéticas NR foram criadas para cada grupo da primeira categoria hierárquica, uma árvore NR com representantes de todos os grupos, uma árvore NR gerada a partir das seqüências 16S de cada organismo e uma árvore de um cluster incluindo uma seqüência de bactéria Gram-positiva como grupo externo. As análises filogenéticas mostram que determinadas proteínas do sistema são mais divergentes que outras, indicando que para uma determinada função poucas mutações de seqüências foram necessárias, já outras proteínas precisaram de maiores mutações para adquirir outras funções. Por isso, verifica-se que proteínas de um mesmo cluster apresentam diferentes funções: conjugação, DNA-uptake/release", traslocadores de proteínas efetoras. Conseqüentemente, foi possível verificar que funções semelhantes se agruparam juntas nas árvores filogenéticas, permitindo anotar uma função provável das proteínas ainda não caracterizadas ( unknown"), isto possivelmente devido a que em virtude de sua semelhança de seqüências, possivelmente evoluíram para realizar a mesma função. Assim, as arvores possuíram a finalidade de confirmar a anotação e contribuíram permitindo inferir se os unknown" ou probable" podem ser de uma determinada classificação funcional. O banco T4SS será de uso público, oferecendo ao usuário ferramentas de buscas e submissão de seqüências, as quais permitirão inferir respostas sobre a classificação e filogenia da seqüência T4SS de interesse. O banco de dados T4SS pode ser acessado na URL: http://www.t4ss.lncc.br.