Deep-Learning Application to in silico Drug Design

Detalhes bibliográficos
Autor(a) principal: Gomes, António José Preto Martins
Data de Publicação: 2023
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: https://hdl.handle.net/10316/114365
Resumo: Tese de Doutoramento em Biologia Experimental e Biomedicina apresentada ao Instituto de Investigação Interdisciplinar
id RCAP_c0874ec76215037cd17d23d78003b3f2
oai_identifier_str oai:estudogeral.uc.pt:10316/114365
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Deep-Learning Application to in silico Drug DesignDeep-Learning Application to in silico Drug DesignAprendizagem automáticaAprendizagem profundaDesenho de fármacosInteligência ArtificialProteínasArtificial IntelligenceDeep LearningDrug DesignMachine LearningProteinsCiências exactas e naturais::Ciências biológicasTese de Doutoramento em Biologia Experimental e Biomedicina apresentada ao Instituto de Investigação InterdisciplinarTem havido um aumento significativo no investimento e contribuição de ferramentas computacionais para a descoberta de fármacos. A aprendizagem automática tem esculpido um lugar confortável no campo, com particular destaque para o conjunto específico de ferramentas que é a aprendizagem profunda. A sua utilização tem-se mostrado capaz de reduzir custos, acelerar o processo entre o desenho e a produção e limitar o erro humano. De facto, técnicas centradas nos dados têm sido utilizadas para propulsionar muitos passos no processo de desenvolvimento de fármacos. Iterativamente, isto gera nova informação que pode ser reciclada para melhorar soluções já existentes ou permitir o aparecimento de novas.Uma componente da investigação em desenvolvimento de fármacos foca-se em perceber e modular os componentes moleculares que são alvos dos fármacos. Comummente, estes são proteínas. As proteínas frequentemente contêm aminoácidos específicos que são particularmente propícios a manter a estrutura e função – Hot-Spots (HS). Devido à sua contribuição para o desempenho dos principais papéis proteicos, os HS assumem o cargo adicional de se tornarem localizações privilegiadas para a ligação dos fármacos. Uma parte deste trabalho descreve o SPOTONE, uma ferramenta de previsão de HS a partir, somente, de informação de sequência com elevado desempenho num conjunto de dados independente (accuracy = 0.82, AUROC=0.83, precision=0.91, recall=0.82 e F1-score=0.85).Embora sejam os alvos farmacológicos mais comuns, as proteínas variam em muitos aspetos, tais como a constituição, a localização e a função. Um conjunto de proteínas destaca-se como sendo de particular interesse para o desenho de fármacos, devido à sua função e especificidade. As proteínas membranares são mediadoras entre o ambiente interno e externo à célula. Como tal, são as guardiãs que permitem a comunicação entre estímulos externos e o funcionamento celular. O MENSAdb caracteriza um vasto conjunto de proteínas membranares, apresentando dímeros manualmente processados para informação útil, tornando-a disponível para consulta.Outros componentes vastamente abordados na investigação de desenho de fármacos são, sem surpresas, os fármacos. Habitualmente moléculas, idealmente os fármacos interagem especificamente com alvos únicos, limitando a sua interação com outras moléculas biológicas. O DrugTax é uma ferramenta, implementada e distribuída como ferramenta de Python, que foi desenvolvida para facilitar a interpretação de dados de pequenas moléculas. O DrugTax possibilita a caracterização de taxonomia química para obter descritores farmacológicos explicáveis. Adicionalmente, permite análise simultânea de múltiplos compostos para visualização e aprendizagem automática.A caracterização de alvos e fármacos é necessária para a maior parte das tarefas finais no processo de desenho de fármacos, tais como a previsão de interação entre fármacos e alvos, a previsão de reposta a fármacos e a previsão de resposta a combinação de fármacos. A última tem ganho particular interesse sob a forma de previsão de sinergia de combinações de fármacos em linhas celulares de cancro. Este interesse justifica-se pela natureza da doença e dos seus alvos, visto que os perfis de cancro podem variar abundantemente em diversos fatores como tecido, indivíduo, entre outros. Por este motivo, para fazer frente ao cancro é necessário desenvolver soluções flexíveis que possam ser adaptadas e otimizadas para cada caso. A sinergia de combinação de fármacos permite isto, pois, ao administrar doses menores dos mesmos fármacos e obter resultados semelhantes ou melhores, permite diminuir a probabilidade de resistência farmacológica e, dessa forma, aumentar a probabilidade de sucesso. O SYNPRED é um conjunto de previsores para previsão de sinergia de combinações de fármacos em linhas celulares. O SYNPRED foi desenvolvido considerado cinco modelos de sinergia de referência, um esquema de validação especificamente desenhado para o efeito e os métodos de aprendizagem automática e profunda mais atuais. O modelo de previsão do SYNPRED com melhor desempenho tenta prever o Combination Sensitivity Score (RMSE, 11.07; MSE, 122.61; Pearson, 0.86; MAE, 7.43; Spearman, 0.87).Em resumo, ao longo deste trabalho fizeram-se diversos avanços em secções distintas do processo de desenho de fármacos. O presente trabalho resultou em 8 publicações científicas indexadas (5 artigos de investigação original, 1 base de dados e 2 artigos de revisão sob a forma de capítulos de livro), 5 repositórios de GitHub, 3 websites e 1 biblioteca de Python de distribuição gratuita.There has been a significant investment and contribution increase from computational tools to drug discovery pipelines. Machine Learning (ML) has carved a comfortable spot in the field, with a particular highlight for the specific set of tools that is Deep Learning (DL). Their utilization has proven to reduce costs, speed up time from design to production and limit human error. In fact, data-centric techniques have been used to boost many steps of the drug design pipeline. Iteratively, this generates new information that can be recycled into improving already existing solutions or allowing the sprout of new ones.One part of drug design research is heavily focused on understanding and modulating the molecular components targeted by the drugs. Most commonly, these are proteins. Proteins often feature specific amino acids that are particularly adept at maintaining protein structure and function - HotSpots (HS). For their key contribution to proteins’ main roles, HS take on the additional burden of becoming optimal drug binding locations. A part of this work describes SPOTONE, a state-of-theart freely available HS prediction tool from sequence-only information with accuracy, AUROC, precision, recall and F1-score of 0.82, 0.83, 0.91, 0.82 and 0.85, respectively, on an independent testing set.Although the most common drug targets, proteins vary widely in many regards, such as constitution, location, and function. One set of proteins stands out as particularly interesting for drug design, due to their role and specificity. Membrane Proteins (MP) are mediators between the cell inner and outer environment, as such, they are gatekeepers between external stimuli and cellular functioning. MENSAdb characterises a wide array of MPs, manually curating MP dimers into useful information, making it available for easy consultation.Other components heavily focused in drug design research are, non-surprisingly, the drugs. Most commonly small molecules, ideally drugs interact specifically with single targets, limiting their interactions with other biological molecules. DrugTax is a tool, implemented and distributed as a Python package, that was developed to facilitate interpretable small molecule data. DrugTax explores chemical taxonomical characterization to deliver explainable drug features. Furthermore, it allows bulk analysis for visualization and ML purposes.Target and drug characterisation are required for most end-goal drug design tasks, such as Drug-Target Interaction (DTI) prediction, drug response prediction and drug combination response prediction. The latter has gained particular interest as drug combination synergy prediction in cancer cell lines. This added focus traces back to the nature of the disease and its targets, as cancer profiles vary widely among several factors such as tissue, individual, among others. For this reason, to tackle cancer it is necessary to develop flexible solutions that can be adapted and tuned for each case. Drug combination synergy is a venue that allows this, since by delivering smaller dosages of the same drugs and achieving the same or better results, it diminishes the likeliness of drug resistance and thus increases the probability of success. SYNPRED is a set of predictors for drug combination synergy in cancer cell lines. SYNPRED was developed considering five different synergy reference models, a problem-tailored validation scheme and the most state-of-the-art ML and DL methods. The best-performing prediction model in SYNPRED targets the Combination Sensitivity Score (RMSE, 11.07; MSE, 122.61; Pearson, 0.86; MAE, 7.43; Spearman, 0.87).In sum, throughout this work, several advances were made regarding the different sections of the drug design pipeline. The present work resulted in 8 indexed scientific publications (5 original research papers, 1 database and 2 reviews in the form of book chapters), 5 GitHub repositories, 3 websites and 1 freely distributed Python package.FCT2023-04-04doctoral thesisinfo:eu-repo/semantics/publishedVersionhttps://hdl.handle.net/10316/114365https://hdl.handle.net/10316/114365TID:101710844engGomes, António José Preto Martinsinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2024-03-26T14:53:08Zoai:estudogeral.uc.pt:10316/114365Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:07:31.030883Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Deep-Learning Application to in silico Drug Design
Deep-Learning Application to in silico Drug Design
title Deep-Learning Application to in silico Drug Design
spellingShingle Deep-Learning Application to in silico Drug Design
Gomes, António José Preto Martins
Aprendizagem automática
Aprendizagem profunda
Desenho de fármacos
Inteligência Artificial
Proteínas
Artificial Intelligence
Deep Learning
Drug Design
Machine Learning
Proteins
Ciências exactas e naturais::Ciências biológicas
title_short Deep-Learning Application to in silico Drug Design
title_full Deep-Learning Application to in silico Drug Design
title_fullStr Deep-Learning Application to in silico Drug Design
title_full_unstemmed Deep-Learning Application to in silico Drug Design
title_sort Deep-Learning Application to in silico Drug Design
author Gomes, António José Preto Martins
author_facet Gomes, António José Preto Martins
author_role author
dc.contributor.author.fl_str_mv Gomes, António José Preto Martins
dc.subject.por.fl_str_mv Aprendizagem automática
Aprendizagem profunda
Desenho de fármacos
Inteligência Artificial
Proteínas
Artificial Intelligence
Deep Learning
Drug Design
Machine Learning
Proteins
Ciências exactas e naturais::Ciências biológicas
topic Aprendizagem automática
Aprendizagem profunda
Desenho de fármacos
Inteligência Artificial
Proteínas
Artificial Intelligence
Deep Learning
Drug Design
Machine Learning
Proteins
Ciências exactas e naturais::Ciências biológicas
description Tese de Doutoramento em Biologia Experimental e Biomedicina apresentada ao Instituto de Investigação Interdisciplinar
publishDate 2023
dc.date.none.fl_str_mv 2023-04-04
dc.type.driver.fl_str_mv doctoral thesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/114365
https://hdl.handle.net/10316/114365
TID:101710844
url https://hdl.handle.net/10316/114365
identifier_str_mv TID:101710844
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602583206297600