Development of empirical scoring funcions forn predicting proteinligand binding affinity

Bibliographic Details
Main Author: Guedes, Isabella Alvim
Publication Date: 2016
Format: Doctoral thesis
Language: por
Source: Biblioteca Digital de Teses e Dissertações do LNCC
Download full: https://tede.lncc.br/handle/tede/247
Summary: Atracamento molecular é uma metodologia que tem por objetivo prever a conformação e a afinidade de uma pequena molécula no sítio de ligação do receptor alvo de interesse. É uma abordagem amplamente utilizada pela indústria farmacêutica e pela comunidade acadêmica para identificação e otimização de compostos líderes, contribuindo para a redução de custo, tempo e falhas no desenvolvimento de novos fármacos. As metodologias atuais de atracamento molecular e as funções de avaliação associadas possuem bom desempenho em identificar modos de ligação. Entretanto, a detecção de compostos ativos dentre inativos e a predição acurada da afinidade de ligação ainda são grandes desafios. O programa DockThor, desenvolvido pelo nosso grupo de pesquisa, tem obtido resultados promissores em estudos comparativos com outros programas de atracamento molecular bem estabelecidos e amplamente utilizados pela comunidade científica para a predição de modos de ligação. Apesar de ser bastante útil para predição de poses, a função de avaliação atualmente implementada no DockThor não é adequada para prever afinidade de complexos proteína-ligante, não obtendo correlação com dados experimentais. Neste trabalho, nós desenvolvemos diversas funções de avaliação com características baseadas na física para prever afinidade de ligação de complexos proteína-ligante, treinadas com diversas técnicas de aprendizagem de máquina. As funções de avaliação finais consistem de termos baseados em campo de força relacionados com as interações intermoleculares (potenciais eletrostático e de van der Waals), um termo original para a entropia do ligante (número de ligações rotacionáveis congeladas), dessolvatação do ligante e da proteína e o efeito hidrofóbico. Desenvolvemos então funções de avaliação gerais e específicas para classes de alvos, esta para considerar características específicas associadas com a classe de alvo de interesse, focando em proteases, cinases e complexos de interações proteína-proteína (PPIs). As funções de avaliação foram derivadas utilizando regressão linear (MLR) e sete outras técnicas mais avançadas de aprendizagem de máquina para problemas não lineares. O processo de treinamento e teste foi realizado utilizando conjuntos de dados de alta qualidade compostos de estruturas experimentais de diversos complexos proteína-ligante com dados de afinidade de ligação disponíveis (Kd ou Ki). Adicionalmente, também derivamos funções de avaliação gerais treinadas com resultados do atracamento molecular com o programa DockThor. As funções treinadas com resultados de atracamento obtiveram desempenho promissor quando avaliadas tanto em estruturas experimentais quanto provenientes de atracamento molecular, indicando que elas são confiáveis para serem usadas em experimentos reais de triagem virtual. As funções desenvolvidas neste trabalho demonstraram ser competitivas com as melhores funções de avaliação lineares e não lineares em estudos comparativos descritas na literatura. As funções específicas para classes de alvos também exibiram desempenhos promissores, alcançando significativa melhoria quando utilizando abordagens não lineares comparadas com os modelos lineares. Além disso, a estratégia de avaliação consenso investigada neste trabalho exibiu resultados impressionantes, ficando entre os três melhores modelos com melhores desempenhos preditivos em todos os casos. O desenvolvimento das funções de avaliação implementadas nesta tese é um passo crucial para tornar o programa DockThor ainda mais competitivo, possibilitando o desenvolvimento do programa e do portal de triagem virtual em larga escala DockThor-VS.
id LNCC_38aae35f936ca87b0910c81b61e9dde5
oai_identifier_str oai:tede-server.lncc.br:tede/247
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Development of empirical scoring funcions forn predicting proteinligand binding affinityDesenvolvimento de funções empíricas para prever afinidade de ligação proteína-liganteMoléculas - ModelosModelagem molecularMolecular modelingCNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULARAtracamento molecular é uma metodologia que tem por objetivo prever a conformação e a afinidade de uma pequena molécula no sítio de ligação do receptor alvo de interesse. É uma abordagem amplamente utilizada pela indústria farmacêutica e pela comunidade acadêmica para identificação e otimização de compostos líderes, contribuindo para a redução de custo, tempo e falhas no desenvolvimento de novos fármacos. As metodologias atuais de atracamento molecular e as funções de avaliação associadas possuem bom desempenho em identificar modos de ligação. Entretanto, a detecção de compostos ativos dentre inativos e a predição acurada da afinidade de ligação ainda são grandes desafios. O programa DockThor, desenvolvido pelo nosso grupo de pesquisa, tem obtido resultados promissores em estudos comparativos com outros programas de atracamento molecular bem estabelecidos e amplamente utilizados pela comunidade científica para a predição de modos de ligação. Apesar de ser bastante útil para predição de poses, a função de avaliação atualmente implementada no DockThor não é adequada para prever afinidade de complexos proteína-ligante, não obtendo correlação com dados experimentais. Neste trabalho, nós desenvolvemos diversas funções de avaliação com características baseadas na física para prever afinidade de ligação de complexos proteína-ligante, treinadas com diversas técnicas de aprendizagem de máquina. As funções de avaliação finais consistem de termos baseados em campo de força relacionados com as interações intermoleculares (potenciais eletrostático e de van der Waals), um termo original para a entropia do ligante (número de ligações rotacionáveis congeladas), dessolvatação do ligante e da proteína e o efeito hidrofóbico. Desenvolvemos então funções de avaliação gerais e específicas para classes de alvos, esta para considerar características específicas associadas com a classe de alvo de interesse, focando em proteases, cinases e complexos de interações proteína-proteína (PPIs). As funções de avaliação foram derivadas utilizando regressão linear (MLR) e sete outras técnicas mais avançadas de aprendizagem de máquina para problemas não lineares. O processo de treinamento e teste foi realizado utilizando conjuntos de dados de alta qualidade compostos de estruturas experimentais de diversos complexos proteína-ligante com dados de afinidade de ligação disponíveis (Kd ou Ki). Adicionalmente, também derivamos funções de avaliação gerais treinadas com resultados do atracamento molecular com o programa DockThor. As funções treinadas com resultados de atracamento obtiveram desempenho promissor quando avaliadas tanto em estruturas experimentais quanto provenientes de atracamento molecular, indicando que elas são confiáveis para serem usadas em experimentos reais de triagem virtual. As funções desenvolvidas neste trabalho demonstraram ser competitivas com as melhores funções de avaliação lineares e não lineares em estudos comparativos descritas na literatura. As funções específicas para classes de alvos também exibiram desempenhos promissores, alcançando significativa melhoria quando utilizando abordagens não lineares comparadas com os modelos lineares. Além disso, a estratégia de avaliação consenso investigada neste trabalho exibiu resultados impressionantes, ficando entre os três melhores modelos com melhores desempenhos preditivos em todos os casos. O desenvolvimento das funções de avaliação implementadas nesta tese é um passo crucial para tornar o programa DockThor ainda mais competitivo, possibilitando o desenvolvimento do programa e do portal de triagem virtual em larga escala DockThor-VS.Molecular docking is a methodology that aims to predict the binding modes and affinity of a small molecule within the binding site of the receptor target of interest. It is an approach widely used by the pharmaceutical industry and the academic community for identification and optimization of lead compounds, contributing to the reduction of cost, time and failures in the development of new drugs. Current docking methods and the associated scoring functions exhibit good performances in identifying experimental binding modes. However, the detection of active compounds among a decoy set of ligands and the accurate prediction of binding affinity remain challenging tasks. The DockThor program developed in our group has obtained promising results in comparative studies with other well established and widely used protein-ligand docking programs for predicting experimental binding modes. Despite useful for pose prediction, the current scoring function implemented in DockThor is not suitable for predicting binding affinities of protein-ligand complexes, obtaining no correlation with measured affinity data. In this work, we develop several scoring functions with physically-based features for predicting binding affinities of protein-ligand complexes trained with diverse machine learning techniques. The final scoring functions consist of force-field based terms related to the intermolecular interactions (electrostatic and van der Waals potentials), an original term for the ligand entropy (number of frozen rotatable bonds), ligand and protein desolvation and the hydrophobic effect. Then, we developed general and target-classes scoring functions, the last to account for binding characteristics associated with a target class of interest, focusing on proteases, kinases and protein-protein interactions complexes (PPIs). The scoring functions were derived using linear regression (MLR) and seven more advanced machine learning techniques for nonlinear problems. The training and testing were carried out using high-quality datasets composed of experimental structures of diverse protein-ligand complexes with binding affinities data available (Kd or Ki). Additionally, we also derived general scoring functions trained with redocking results from the DockThor program. The scoring functions trained with docking results obtained promising performances when evaluated in both experimental and docking structures, indicating that they are reliable to be used in real virtual screening experiments. The scoring functions developed in this work have demonstrated to be competitive with the best-evaluated linear and nonlinear scoring functions in benchmarking studies described in the literature. The scoring functions derived for specific classes of targets also exhibited promising performances, achieving great improvements when using nonlinear approaches compared to the linear models. Moreover, the consensus scoring strategy investigated in this work exhibited impressive results, ranking among the top-three models with the best predictive performances on all cases. The development of the scoring functions implemented in this thesis is a crucial step to make the DockThor an even more competitive program, enabling the development of the high-throughput virtual screening program and portal DockThor-VS.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes)Laboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalDardenne, Laurent Emmanuelhttp://lattes.cnpq.br/8344194525615133Barreto, André da Motta Salleshttp://lattes.cnpq.br/0868909503278328Andricopulo, Adriano DefiniSant'Anna, Carlos Mauricio RabeloCaffarena, Ernesto RaulBarbosa, Helio José Corrêahttp://lattes.cnpq.br/0375745110240885Guedes, Isabella Alvim2017-04-12T19:06:22Z2016-07-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfGUEDES, Isabella AlvimDevelopment of empirical scoring funcions forn predicting proteinligand binding affinity, 2016. xxi, 174 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2016.https://tede.lncc.br/handle/tede/247porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-06-05T14:13:58Zoai:tede-server.lncc.br:tede/247Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-06-05T14:13:58Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Development of empirical scoring funcions forn predicting proteinligand binding affinity
Desenvolvimento de funções empíricas para prever afinidade de ligação proteína-ligante
title Development of empirical scoring funcions forn predicting proteinligand binding affinity
spellingShingle Development of empirical scoring funcions forn predicting proteinligand binding affinity
Guedes, Isabella Alvim
Moléculas - Modelos
Modelagem molecular
Molecular modeling
CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR
title_short Development of empirical scoring funcions forn predicting proteinligand binding affinity
title_full Development of empirical scoring funcions forn predicting proteinligand binding affinity
title_fullStr Development of empirical scoring funcions forn predicting proteinligand binding affinity
title_full_unstemmed Development of empirical scoring funcions forn predicting proteinligand binding affinity
title_sort Development of empirical scoring funcions forn predicting proteinligand binding affinity
author Guedes, Isabella Alvim
author_facet Guedes, Isabella Alvim
author_role author
dc.contributor.none.fl_str_mv Dardenne, Laurent Emmanuel
http://lattes.cnpq.br/8344194525615133
Barreto, André da Motta Salles
http://lattes.cnpq.br/0868909503278328
Andricopulo, Adriano Defini
Sant'Anna, Carlos Mauricio Rabelo
Caffarena, Ernesto Raul
Barbosa, Helio José Corrêa
http://lattes.cnpq.br/0375745110240885
dc.contributor.author.fl_str_mv Guedes, Isabella Alvim
dc.subject.por.fl_str_mv Moléculas - Modelos
Modelagem molecular
Molecular modeling
CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR
topic Moléculas - Modelos
Modelagem molecular
Molecular modeling
CNPQ::CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR
description Atracamento molecular é uma metodologia que tem por objetivo prever a conformação e a afinidade de uma pequena molécula no sítio de ligação do receptor alvo de interesse. É uma abordagem amplamente utilizada pela indústria farmacêutica e pela comunidade acadêmica para identificação e otimização de compostos líderes, contribuindo para a redução de custo, tempo e falhas no desenvolvimento de novos fármacos. As metodologias atuais de atracamento molecular e as funções de avaliação associadas possuem bom desempenho em identificar modos de ligação. Entretanto, a detecção de compostos ativos dentre inativos e a predição acurada da afinidade de ligação ainda são grandes desafios. O programa DockThor, desenvolvido pelo nosso grupo de pesquisa, tem obtido resultados promissores em estudos comparativos com outros programas de atracamento molecular bem estabelecidos e amplamente utilizados pela comunidade científica para a predição de modos de ligação. Apesar de ser bastante útil para predição de poses, a função de avaliação atualmente implementada no DockThor não é adequada para prever afinidade de complexos proteína-ligante, não obtendo correlação com dados experimentais. Neste trabalho, nós desenvolvemos diversas funções de avaliação com características baseadas na física para prever afinidade de ligação de complexos proteína-ligante, treinadas com diversas técnicas de aprendizagem de máquina. As funções de avaliação finais consistem de termos baseados em campo de força relacionados com as interações intermoleculares (potenciais eletrostático e de van der Waals), um termo original para a entropia do ligante (número de ligações rotacionáveis congeladas), dessolvatação do ligante e da proteína e o efeito hidrofóbico. Desenvolvemos então funções de avaliação gerais e específicas para classes de alvos, esta para considerar características específicas associadas com a classe de alvo de interesse, focando em proteases, cinases e complexos de interações proteína-proteína (PPIs). As funções de avaliação foram derivadas utilizando regressão linear (MLR) e sete outras técnicas mais avançadas de aprendizagem de máquina para problemas não lineares. O processo de treinamento e teste foi realizado utilizando conjuntos de dados de alta qualidade compostos de estruturas experimentais de diversos complexos proteína-ligante com dados de afinidade de ligação disponíveis (Kd ou Ki). Adicionalmente, também derivamos funções de avaliação gerais treinadas com resultados do atracamento molecular com o programa DockThor. As funções treinadas com resultados de atracamento obtiveram desempenho promissor quando avaliadas tanto em estruturas experimentais quanto provenientes de atracamento molecular, indicando que elas são confiáveis para serem usadas em experimentos reais de triagem virtual. As funções desenvolvidas neste trabalho demonstraram ser competitivas com as melhores funções de avaliação lineares e não lineares em estudos comparativos descritas na literatura. As funções específicas para classes de alvos também exibiram desempenhos promissores, alcançando significativa melhoria quando utilizando abordagens não lineares comparadas com os modelos lineares. Além disso, a estratégia de avaliação consenso investigada neste trabalho exibiu resultados impressionantes, ficando entre os três melhores modelos com melhores desempenhos preditivos em todos os casos. O desenvolvimento das funções de avaliação implementadas nesta tese é um passo crucial para tornar o programa DockThor ainda mais competitivo, possibilitando o desenvolvimento do programa e do portal de triagem virtual em larga escala DockThor-VS.
publishDate 2016
dc.date.none.fl_str_mv 2016-07-15
2017-04-12T19:06:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GUEDES, Isabella AlvimDevelopment of empirical scoring funcions forn predicting proteinligand binding affinity, 2016. xxi, 174 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2016.
https://tede.lncc.br/handle/tede/247
identifier_str_mv GUEDES, Isabella AlvimDevelopment of empirical scoring funcions forn predicting proteinligand binding affinity, 2016. xxi, 174 f. Tese (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2016.
url https://tede.lncc.br/handle/tede/247
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1832737879893213184