Bambu: desenvolvimento de uma ferramenta para QSAR baseada em aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Guidotti, Isadora Leitzke
Orientador(a): Kremer, Frederico Schmitt
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pelotas
Programa de Pós-Graduação: Programa de Pós-Graduação em Biotecnologia
Departamento: Centro de Desenvolvimento Tecnológico
País: Brasil
Palavras-chave em Português:
HTS
Área do conhecimento CNPq:
Link de acesso: http://guaiaca.ufpel.edu.br/handle/prefix/8905
Resumo: BioAssays Model Builder - BAMBU é uma ferramenta desenvolvida para auxiliar pesquisadores em pesquisas relacionadas ao desenvolvimento de novos fármacos. A identificação de moléculas com potencial farmacológico é tradicionalmente realizada por meio de descobertas de compostos naturais, para isso se usa a abordagem de drug discovery, dentro dela o High Throughput Screening (HTS). Outra abordagem usada para o desenvolvimento dessas ferramentas é o aprendizado de máquina (AM), uma subárea da inteligência artificial, que visa desenvolver algoritmos capazes de solucionar problemas para os quais não foram explicitamente programados. Pode ser dividida em duas áreas fundamentais: a aprendizagem supervisionada que visa aprender com os dados fornecidos e a aprendizagem não supervisionada que aprender com base nos padrões de amostras. Uma das metodologias empregadas no ML supervisionado no contexto de drug discovery é a Quantitative Structure-Activity Relationship (QSAR), um estudo quantitativo para ver interações entre moléculas orgânicas e estruturas químicas de forma tridimensional que visa estudar o ligante. A ferramenta bambu une os bancos de dados oriundos de estudos de HTS junto da metodologia QSAR que emprega o uso do AM supervisionado e usa algoritmos de AM para distinguir moléculas com potencial farmacológico daquelas que não possuem e pode ser usada para auxiliar na pesquisa de novas abordagens terapêuticas para várias doenças incluindo câncer e doenças neurodegenerativas. Para compor a ferramenta usamos modelos baseados em árvores de decisão, redes neurais e regressão linear. Como estratégia de balanceamento são usadas abordagens de undersampling, oversampling, tomek links e SMOTE. Para avaliar o funcionamento da ferramenta é usado métricas de classificação como precisão, recall, f1-score e acurácia. O uso dos modelos permite que a ferramenta consiga separar moléculas ativas de inativas e isso se comprova e atinge o objetivo do trabalho quando observamos os dados da precisão que é uma das métricas usadas para validar que nos diz se o modelo está conseguindo separar moléculas ativas de moléculas inativas. Também observamos que os modelos baseados em árvores de decisão e ensembles de árvores de decisão são os que obtiveram resultados mais satisfatórios.