Melhoria da Sensibilidade em dados de proteômica Shotgun usando redes neurais artificiais sensíveis ao custo e o algoritmo threshold selector

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Ricardo, Adilson Mendes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.locus.ufv.br/handle/123456789/7275
Resumo: Antecedentes: Este trabalho apresenta uma estratégia de aprendizagem de máquina para aumentar sensibilidade na análise de dados de espectrometria de massa para identificação de peptídeos / proteínas. A espectrometria de massa em tandem é uma técnica de química analítica amplamente utilizada para identificar as proteínas em misturas complexas, dando origem a milhares de espectros em uma única corrida que são depois interpretados por software. A maioria destas abordagens computacionais usam bancos de dados de proteínas para realizar a interpretação dos espectros, ou seja, para cada um, obter a melhor correspondência entre o mesmo e a sequência de um peptídeo obtido computacionalmente, a partir das sequências de proteínas do banco de dados. As correspondências espectro-peptídeo (PSM - peptide-spectrum matches) também devem ser avaliadas por ferramentas computacionais já que a análise manual não é possível em função do volume. A estratégia do banco de dados target-decoy é largamente utilizada para avaliação de PSMs. No entanto, em geral, o método não considera a sensibilidade, apenas a estimativa de erro. Resultados: Em trabalho de pesquisa anterior, o método MUMAL aplica uma rede neural artificial para gerar um modelo para classificar PSMs usando a estratégia do banco de dados target-decoy para o aumento da sensibilidade. Entretanto, o presente trabalho de pesquisa mostra que a sensibilidade pode ser melhorada com a utilização de uma matriz de custo associada com o algoritmo de aprendizagem. Demonstra-se também que a utilização do algoritmo threshold selector para o ajuste de probabilidades conduz a valores mais coerentes de probabilidade atribuídos para os PSMs, o que afeta positivamente a etapa de inferência de proteínas. Portanto, a abordagem aqui proposta, denominada MUMAL2, fornece duas contribuições para proteômica shotgun. Em primeiro lugar, o aumento no número de espectros corretamente interpretados no nível de peptídeo aumenta a chance de identificar mais proteínas. Em segundo lugar, os valores mais adequados de pro- babilidade dos PSMs produzidos pelo algoritmo threshold selector impactam de forma positiva a fase de inferência de proteínas, realizada por programas que levam em conta estas probabilidades, tais como o ProteinProphet. Os experimentos demonstraram que o MUMAL2 fornece um maior número de verdadeiros positivos em comparação com métodos convencionais para avaliação de PSMs. Esta nova abordagem atingiu cerca de 15% de melhoria na sensibilidade em comparação com o melhor método atual. Além disso, a área sob a curva ROC obtida foi de 0,93, o que demonstra que as probabi- lidades geradas pelo MUMAL2 são, de fato, apropriadas. Finalmente, diagramas de Venn comparando o MUMAL2 com o melhor método atual mostram que o número de peptídeos exclusivos encontrado pelo MUMAL2 foi quase quatro vezes superior, o que impacta diretamente a cobertura do proteoma. Conclusões: A inclusão de uma matriz de custos e do algoritmo threshold selector na tarefa de aprendizagem melhora, ainda mais, a análise pela estratégia banco de dados target-decoy para identificação dos peptídeos, e contribui de forma eficaz para a difícil tarefa de identificação no nível de proteínas, resultando em uma poderosa ferramenta computacional para a proteômica shotgun.