Desenvolvimento de algoritmos evolucionistas para aprimorar a metodologia PSP de novo do programa Rosetta
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.lncc.br/handle/tede/343 |
Resumo: | Um dos principais desafios da biologia molecular computacional têm sido o desenvolvimento de métodos capazes de prever a estrutura nativa de uma proteína a partir de sua sequência de aminoácidos. O evento bianual CASP tem documentado o progresso e o estado da arte da PSP, que hoje é subdividida em dois grupos: predição baseada em Templates, quando proteínas resolvidas experimentalmente são utilizadas como moldes para a geração de novos modelos e a predição Free Modelling (FM), onde a modelagem é realizada estritamente a partir de princípios físico-químicos (ab initio) ou quando algum tipo de informação experimental é utilizada (de novo). Entre os principais problemas que um método de PSP FM tem que enfrentar estão: (i) a baixa acurácia associada às funções avaliações utilizadas devido às simplificações teóricas introduzidas para tornar o modelo viável computacionalmente; (ii) o tamanho, complexidade e multimodalidade do espaço de busca que resultam das possíveis conformações associadas a uma dada sequência proteica. Em muitos casos a estrutura nativa não pertence sequer à bacia de mínimo global da superfície de energia investigada. Os resultados das avaliações dos eventos CASP indicam o programa Rosetta como um dos métodos de PSP de novo mais bem-sucedidos. Seu algoritmo utiliza fragmentos de estruturas determinadas experimentalmente para orientar a busca no espaço das estruturas. A inserção destes fragmentos é realizada por um algoritmo de Monte Carlo, que monta os fragmentos na estrutura utilizando Simulated Annealing, avaliado por funções score mistas, baseadas tanto em mecânica molecular quanto em conhecimento proveniente de bancos de dados de estruturas já conhecidas. Sua estratégia de otimização utiliza um grande número de execuções independentes do algoritmo, onde cada trajetória procura convergir rapidamente para um mínimo da superfície de energia, para obter um grande conjunto de predições, do qual um subconjunto de modelos mais promissores é escolhido. Resultados da literatura indicam que as funções de energia do Rosetta são o ponto forte de sua metodologia, sendo amplamente utilizadas em outros métodos de PSP FM de sucesso, mas que sua estratégia de busca conformacional é passível de ser aprimorada. Pesquisas bibliográficas sobre trabalhos relacionados mostram que de fato o algoritmo do Rosetta não consegue explorar eficientemente o espaço multimodal dos fragmentos, o que reforça a ideia de utilizar um método distinto para melhorar a sua busca conformacional. O objetivo deste trabalho é aprimorar a busca conformacional do Rosetta através do desenvolvimento de metaheurísticas evolucionistas, de forma a alcançar um melhor mapeamento do espaço de busca e obter ganhos tanto na qualidade das estruturas preditas, quanto na redução do alto custo computacional que o Rosetta requer para obter modelos de boa qualidade. Nesta abordagem é utilizado um algoritmo populacional com substituição parental por aglomeração fenotípica, onde a prole de soluções candidatas substitui os elementos na população parental por um critério de semelhança estrutural. Foram também desenvolvidas variações dos algoritmos com diferentes regimes populacionais e mecanismos de seleção por torneio e baseada na clusterização estrutural dos indivíduos da população, além de um operador de recombinação que considera predições de estrutura secundária. A implementação destas técnicas, à metodologia de novo do Rosetta, foi testada gradualmente em experimentações com um grupo diverso de alvos proteicos. Os resultados obtidos com os algoritmos mais bem-sucedidos foram confrontados com resultados correspondentes do Rosetta original e de outras duas abordagens semelhantes encontradas na literatura, e demonstraram conseguir um balanço positivo entre a busca e a exploração da hipersuperfície energética, gerada pelos diferentes scores utilizados durante a montagem dos fragmentos. Dois dos algoritmos propostos neste trabalho resultaram em melhorias significativas, tanto na diversidade e na qualidade estrutural dos modelos finais preditos, quanto na redução do custo computacional necessário para se obter estruturas de boa qualidade. |