Predições de interações proteína-proteína por análise combinada de evidências
Ano de defesa: | 2020 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.lncc.br/handle/tede/317 |
Resumo: | As interações proteína-proteína (PPI - Protein Protein Interactions) podem ser físicas ou funcionais e podem ser utilizadas como fonte de informação para auxiliar na inferência da função das proteínas. Muitos métodos in silico de predição de PPI estão descritos na literatura, porém estes não exploram a integração das diferentes características proteicas que podem ser utilizadas para identificação de interações, tais como sua sequência de aminoácidos, anotações funcionais, estrutura de conformação, entre outras. Outra questão importante é a formalização e padronização de dados derivados de predição de PPI e, atualmente, a maioria das iniciativas não possuem metadados suficientes para cobrir a representação de todos os conceitos envolvidos em experimentos de predição de PPI. Neste contexto, nessa tese foi desenvolvido um workflow científico, chamado de PredPPI, que utiliza múltiplas evidências com o objetivo de otimizar a predição de PPIs. O PredPPI é composto de seis evidências de três classes distintas (estrutura, sequência e anotação funcional) e utiliza a estratégia de comitê de modelos Boosting para classificação. Além disso, introduz a ontologia OntoPPI que foi desenvolvida para formalizar os conceitos do domínio de experimentos de predição de PPI em todas as suas etapas. As análises do experimento computacional mostraram que o PredPPI supera os resultados dos métodos individuais que o compõem, além de apresentar acurácia maior que 95% em todos os conjuntos de dados analisados. Utilizando as interações preditas na análise computacional, foram feitas análises de enriquecimento funcional comprovando que estas interações possuem propriedades funcionais e topológicas de acordo com parâmetros conhecidos de redes de PPI descritos na literatura. Outro experimento feito para validação do PredPPI usou os modelos preditivos treinados durante a análise computacional realizada para predição de novas PPIs extraídas da base NCG (Network of Cancer Genes). As interações positivas resultantes dessa predição foram submetidas ao processo de validação proposto nesta tese com dois critérios de filtragem: padrões ocorrência de localizações celulares e mineração de texto em artigos científicos. Dentre as interações validadas por este processo destaca-se a descoberta de 2 interações diretas novas, 2 interações indiretas e 1 interação artificial. Outro experimento realizado utilizou as interações preditas pelo PredPPI no pipeline desenvolvido nesta tese para predição de severidade de prognóstico em duas doenças, leucemia e câncer de ovário, cujos dados foram extraídos do banco de dados GEO (Gene Expression Omnibus). No estudo de caso para leucemia, os valores de acurácia mostraram que a predição manteve o mesmo desempenho de um trabalho que utilizou PPIs experimentalmente validadas. E no estudo de caso para o câncer de ovário, os valores de acurácia variaram entre 75% e 79%. Todos estes experimentos mostram o potencial do PredPPI para predição de interações entre proteínas sob as perspectivas biológica e computacional. |