Desenvolvimento de abordagens computacionais para proteogenômica de procarioto

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Machado, Karla Cristina Tabosa
Orientador(a): Souza, Gustavo Antonio de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/jspui/handle/123456789/26028
Resumo: Com o desenvolvimento de sequenciadores de segunda geração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. A abordagem proteogenômica é aplicada por meio da construção de bancos de dados de sequências proteicas customizadas, que podem ser inspecionados contra dados de sequências peptídicas coletadas por MS. A natureza probabilística da identificação de peptídeos por MS, e as limitações encontradas na construção de bancos precisos de proteínas tem sido gargalos relevantes no que se refere ao desenvolvimento de abordagens para análise de amostras contendo proteínas de uma comunidade bacteriana. O desenvolvimento dessas abordagens torna-se cada vez mais crítico, dada a importância de se caracterizar biomas de relevância clínica, ambiental e industrial. Como a identificação de peptídeos depende da qualidade e precisão dos bancos de dados de proteínas, este trabalho tem como objetivo desenvolver uma abordagem computacional para construir bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bactéria. Para a construção dos bancos, a abordagem realiza o alinhamento de sequências proteicas de linhagens de bactérias. Em seguida, identifica e compara as proteínas homólogas e as unicamente anotadas em todas as linhagens. E por fim, reporta as sequências de proteínas de forma não redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do banco sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Utilizando dados de espectrometria de massa coletados de 8 linhagens clínicas de Mycobacterium tuberculosis, avaliou-se o desempenho de identificação de proteínas de dois bancos de dados de sequências, um incluindo todas as proteínas de 65 linhagens sequenciadas e outro construído com essa abordagem usando as mesmas 65 linhagens. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Além disso, foram criados bancos para 10 espécies bacterianas com genomas completamente sequenciados. Esses bancos foram monitorados de acordo com as características relevantes para a identificação de proteínas baseadas em probabilística por proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Ao analisar os bancos criados com essa abordagem, mostrou-se que, conforme esperado, o aumento na complexidade do banco de dados se correlaciona com a complexidade pangenômica das espécies de bactérias. No entanto, Mycobacterium tuberculosis e Bortedella pertusis geraram bancos de dados muito complexos, mesmo com baixa complexidade pangenômica ou nenhum pangenoma, respectivamente. Isso indica que as diferenças na anotação genética são mais altas que a média entre as linhagens dessas espécies. Demonstrou-se também a possibilidade de se utilizar tal abordagem para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS.