Implementation of an hybrid machine learning methodology for pharmacological modeling

Bibliographic Details
Main Author: Kwiatkowska, Katarzyna Malgorzata
Publication Date: 2017
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10451/31940
Summary: Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017
id RCAP_c34c5881c50e2ae00e8e0112c659aa5f
oai_identifier_str oai:repositorio.ulisboa.pt:10451/31940
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Implementation of an hybrid machine learning methodology for pharmacological modelingAprendizagem automáticaModelo preditivoSeleção de característicasIntegração de dadosTeses de mestrado - 2017Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017Hoje em dia, especialmente na area biomedica, os dados contem milhares de variaveis de fontes diferentes e com apenas algumas instancias ao mesmo tempo. Devido a este facto, as abordagens da aprendizagem automatica enfrentam dois problemas, nomeadamente a questao da integracao de dados heterogeneos e a selecao das caracteristicas. Este trabalho propoe uma solucao eficiente para esta questao e proporciona uma implementacao funcional da metodologia hibrida. A inspiracao para este trabalho veio do desafio proposto no ambito da competicao AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge em 2016, e da solucao vencedora desenvolvida por Yuanfang Guan. Relativamente a motivacao do concurso, e observado que os tratamentos combinatorios para o cancro sao mais eficientes do que as terapias habituais de agente unico, desde que tem potencial para superar as desvantagens dos outros (limitado espetro de acao e desenvolvimento de resistencia). No entanto, o efeito combinatorio de drogas nao e obvio, produzindo possivelmente o resultado aditivo, sinergico ou antagonico. Assim, o objetivo da competicao era prever in vitro a sinergia dos compostos, sem ter acesso aos dados experimentais da terapia combinatoria. No ambito da competicao foram fornecidos ficheiros de varias fontes, contendo o conhecimento farmacologico tanto experimental como obtido de ajustamento das equacoes, a informacao sobre propriedades quimicas e estruturais de drogas, e por fim, os perfis moleculares de celulas, incluindo expressao de RNA, copy variants, sequencia e metilacao de DNA. O trabalho referido envolveu uma abordagem muito bem sucedida de integração dos dados heterogeneos, estendendo o modelo com conhecimento disponivel dentro do projeto The Cancer Cell Line Encyclopedia, e tambem introduzindo o passo decisivo de simulacao que permite imitar o efeito de terapia combinatoria no cancro. Apesar das descricoes pouco claras e da documentacao da solucao vencedora ineficiente, a reproducao da abordagem de Guan foi concluida, tentando ser o mais fiel possivel. A implementacao funcional foi escrita nas linguagens R e Python, e o seu desempenho foi verificado usando como referencia a matriz submetida no concurso. Para melhorar a metodologia, o workflow de selecao dos caracteristicas foi estabelecido e executado usando o algoritmo Lasso. Alem disso, o desempenho de dois metodos alternativos de modelacao foi experimentado, incluindo Support Vector Machine and Multivariate Adaptive Regression Splines (MARS). Varias versoes da equacao de integracao foram consideradas permitindo a determinacao de coeficientes aparentemente otimos. Como resultado, a compreensao da melhor solucao de competição foi desenvolvida e a implementacao funcional foi construida com sucesso. As melhorias foram propostas e no efeito o algoritmo SVM foi verificado como capaz de superar os outros na resolução deste problema, a equacao de integracao com melhor desempenho foi estabelecida e finalmente a lista de 75 variaveis moleculares mais informativas foi fornecida. Entre estes genes, poderiam ser encontrados possiveis candidatos de biomarcadores de cancro.Nowadays, especially in the biomedical field, the data sets usually contain thousands of multi-source variables and with only few instances in the same time. Due to this fact, Machine Learning approaches face two problems, namely the issue of heterogenous data integration and the feature selection. This work proposes an efficient solution for this question and provides a functional implementation of the hybrid methodology. The inspiration originated from the AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge from 2016 and the winning solution by Yuanfang Guan. Regarding to the motivation of competition, the combinatory cancer treatments are believed to be more effective than standard single-agent therapies since they have a potential to overcome others weaknesses (narrow spectrum of action and development of the resistance). However, the combinatorial drug effect is not obvious bringing possibly additive, synergistic or antagonistic treatment result. Thus, the goal of the competition was to predict in vitro compound synergy, without the access to the experimental combinatory therapy data. Within the competition, the multi-source files were supplied, encompassing the pharmacological knowledge from experiments and equation-fitting, the information on chemical properties and structure of drugs, finally the molecular cell profiles including RNA expression, copy variants, DNA sequence and methylation. The referred work included very successful approach of heterogenous data integration, extending additionally the model with prior knowledge outsourced from The Cancer Cell Line Encyclopedia, as well as introduced a key step of simulation that allows to imitate effect of a combinatory therapy on cancer. Despite unexplicit descriptions and poor documentation of the winning solution, as accurate as possible, reproduction of Guan’s approach was accomplished. The functional implementation was written in R and Python languages, and its performance was verified using as a reference the submitted in challenge prediction matrix. In order to improve the methodology feature selection workflow was established and run using a Lasso algorithm. Moreover, the performance of two alternative modeling methods was experimented including Support Vector Machine and Multivariate Adaptive Regression Splines (MARS). Several versions of merging equation were considered allowing determination of apparently optimal coefficients. As the result, the understanding of the best challenge solution was developed and the functional implementation was successfully constructed. The improvements were proposed and in the effect the SVM algorithm was verified to surpass others in solving this problem, the best-performing merging equation was established, and finally the list of 75 most informative molecular variables was provided. Among those genes, potential cancer biomarker candidates could be found.Falcão, André Osório e Cruz de Azerêdo, 1969-Sousa, Lisete Maria Ribeiro de, 1972-Repositório da Universidade de LisboaKwiatkowska, Katarzyna Malgorzata2018-02-23T10:26:32Z201720172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/31940TID:201853892enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-17T13:50:05Zoai:repositorio.ulisboa.pt:10451/31940Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T02:55:31.853522Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Implementation of an hybrid machine learning methodology for pharmacological modeling
title Implementation of an hybrid machine learning methodology for pharmacological modeling
spellingShingle Implementation of an hybrid machine learning methodology for pharmacological modeling
Kwiatkowska, Katarzyna Malgorzata
Aprendizagem automática
Modelo preditivo
Seleção de características
Integração de dados
Teses de mestrado - 2017
Departamento de Informática
title_short Implementation of an hybrid machine learning methodology for pharmacological modeling
title_full Implementation of an hybrid machine learning methodology for pharmacological modeling
title_fullStr Implementation of an hybrid machine learning methodology for pharmacological modeling
title_full_unstemmed Implementation of an hybrid machine learning methodology for pharmacological modeling
title_sort Implementation of an hybrid machine learning methodology for pharmacological modeling
author Kwiatkowska, Katarzyna Malgorzata
author_facet Kwiatkowska, Katarzyna Malgorzata
author_role author
dc.contributor.none.fl_str_mv Falcão, André Osório e Cruz de Azerêdo, 1969-
Sousa, Lisete Maria Ribeiro de, 1972-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Kwiatkowska, Katarzyna Malgorzata
dc.subject.por.fl_str_mv Aprendizagem automática
Modelo preditivo
Seleção de características
Integração de dados
Teses de mestrado - 2017
Departamento de Informática
topic Aprendizagem automática
Modelo preditivo
Seleção de características
Integração de dados
Teses de mestrado - 2017
Departamento de Informática
description Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017
publishDate 2017
dc.date.none.fl_str_mv 2017
2017
2017-01-01T00:00:00Z
2018-02-23T10:26:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/31940
TID:201853892
url http://hdl.handle.net/10451/31940
identifier_str_mv TID:201853892
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833601534636589056