Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos

Detalhes bibliográficos
Ano de defesa: 2010
Autor(a) principal: Saji, Guadalupe Del Rosario Quispe
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
BR
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
MVC
Link de acesso: https://tede.lncc.br/handle/tede/23
Resumo: O advento de novas tecnologias de sequenciamento e o desenvolvimento de ferramentas computacionais que facilitam a análise dos genomas gerou o aumento exponencial dos bancos de dados genômicos. As abordagens in-silico da genômica comparativa usam esse tipo de dados nas suas comparações. Trabalhos recentes desenvolvidos sobre o genoma de Escherichia coli indicam que o estado atual das sequências codificantes (CoDing Sequences CDS) de genomas anotados nos bancos de dados contêm erros nas sequências que precisam ser verificados (Ochman e Davalos 2006). Portanto a correta descrição de uma CDS é importante para permitir futuras comparações genômicas. Atualmente existe uma nova proposta da comunidade científica de bancos de dados biológicos para estabelecer padrões para a submissão de sequências dos projetos de genoma na nova era de sequenciamento. Dentro desse contexto, destaca-se a identificação e/ou correção de frameshifts durante o processo de montagem de sequências genômicas. A finalidade deste trabalho foi desenvolver uma ferramenta com dois métodos comparativos para identificar CDSs com atributos conflitantes. Usa-se a descrição de conflito para descrever atributos como frameshifts , grandes inserções ou deleções, truncamentos, que são detectados a partir de uma CDS ou várias CDSs usadas como referência, dependendo do modelo. Finalmente, a ferramenta proposta permite visualizar os resultados graficamente e fornecer acesso a outras ferramentas, dando suporte para futuras análises genômicas de maneira amigável e rápida. Foi realizada a busca de CDSs com atributos conflitantes no genoma de E. coli estirpe CFT073 (NCBI) versão AE014075.1, (última data de atualização: 20 de abril do 2006), como referência foi usado o genoma da E.coli estirpe O157:H7 EDL933 versão AE005174.2 ( última data de atualização : 6 de junho do 2008). Através dessa análise foram identificadas e armazenadas 1.865 CDSs (incluem-se possíveis parálogos), por apresentarem alinhamentos únicos com cobertura superior a 30% da CDS de referência. Em uma análise mais fina destes resultados, sobressaltam 144 CDSs no genoma alvo que provavelmente apresentam frameshifts , dos quais 21 acontecem em regiões intergênicas. A ferramenta desenvolvida neste trabalho foi também aplicada para o caso de estudo de uma região genômica da bactéria Klebsiella pneumoniae estirpe KP13. O genoma dessa bactéria foi sequenciado na Unidade Genômica Computacional (UGC) Darcy Fontoura de Almeida do LNCC (dados ainda não publicados). A partir das análises destes genomas, pode se concluir a importância do uso da ferramenta nas fases de identificação, verificação e correção de erros de anotação e, portanto a necessidade da sua inclusão em projetos de sequenciamento que desejam atingir altos padrões na submissão de dados genômicos.