Aprimoramento da anotação N-terminal de proteínas através da predição de peptídeo sinal em proteínas ortólogas e desenvolvimento de uma ferramenta automática para a identificação de grupos ortólogos contendo erros de anotação

Detalhes bibliográficos
Ano de defesa: 2012
Autor(a) principal: Menezes Neto, Armando de
Orientador(a): Brito, Cristiana Ferreira Alves de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://www.arca.fiocruz.br/handle/icict/6517
Resumo: O peptídeo sinal é um motivo encontrado, geralmente, na extremidade N-terminal de proteínas e a sua presença determina a entrada na via clássica de transporte intracelular, após a translocação da proteína para o lúmen do retículo endoplasmático. Portanto, a presença ou ausência do peptídeo sinal influencia a função biológica de uma proteína ao ser um fator determinante da sua localização subcelular. Como a conservação de função entre proteínas ortólogas é esperada, foi hipotetizado que a localização subcelular e, consequentemente, a presença do peptídeo sinal deveriam, também, se apresentar conservadas. Partindo desta premissa, as predições de peptídeo sinal em proteínas ortólogas de cinco espécies de Plasmodiumforam analisadas. Predições de peptídeo sinal (SignalP) e informações de ortologia (OrthoMCL-DB) para proteínas de cinco espécies do gênero Plasmodium(Plasmodium falciparum, Plasmodium vivax, Plasmodium knowlesi, Plasmodium bergueie Plasmodium yoelii) foram combinadas em uma estratégia inovadora, visando a identificação de grupos de proteínas ortólogas que apresentam predições de peptídeo sinal divergentes (grupos Mistos). As proteínas pertencentes a estes grupos foram submetidas a uma análise comparativa baseada na inspeção visual de alinhamentos múltiplos e de modelos gênicos e regiões genômicas flanqueadoras da extremidade N-terminal. Novos modelos gênicos foram sugeridos para aquelas proteínas que apresentavam prováveis erros de anotação de sequência, especialmente na região N-terminal. Alguns dos novos modelos gênicos foram validados por RT-PCR. Os resultados da inspeção visual foram usados para treinar uma Máquina de Suporte de Vetores (Support Vector Machine) com o objetivo de classificar grupos Mistos em: (1)Com erros de anotação ou (2)Sem erros de anotação. O SVM foi aplicado para classificar os grupos Mistos de cinco bancos de dados, montados a partir de vinte e duas espécies. Os grupos contendo proteínas com predições de peptídeo sinal divergentes apresentaram uma alta taxa de erros de anotação. Um total de 478 proteínas de Plasmodiumforam reanotadas sendo que a maioria apresentou inversões das suas predições de peptídeo sinal originais, representando um impacto significativo no conjunto final de proteínas destinadas à via clássica de transporte intracelular, principalmente para Plasmodium vivaxe Plasmodium yoelii. O classificador baseado nos dados da inspeção visual se mostrou bastante flexível e robusto, apresentando uma performance boa e consistente mesmo frente a cenários variados de agrupamento de espécies. A metodologia proposta introduz uma abordagem simples, porém promissora, para a realização de tarefas de curadoria e controle de qualidade dos dados de anotação de sequências proteicas em uma escala genômica. Os resultados do classificador definem a base para seu desenvolvimento em uma ferramenta computacional e os resultados das reanotações em Plasmodiumimpactarão a busca por novos alvos vacinais e quimioterápicos.