Combinação de kernels para predição de interações em redes biológicas

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: NASCIMENTO, André Câmara Alves do
Orientador(a): PRUDÊNCIO, Ricardo Bastos Cavalcante
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/16781
Resumo: Redes droga-proteína têm recebido bastante atenção nos últimos anos, dada sua relevância para a inovação farmacêutica e produção de novos fármacos. Muitas abordagens in silico distintas para predição de interações droga-proteína têm sido propostas, muitas das quais baseadas em uma classe particular de métodos de aprendizagem de máquina chamada de métodos de kernel. Estes algoritmos de classificação de padrões são capazes de incorporar conhecimento prévio na forma de funções de similaridade, i.e., um kernel, e têm tido sucesso em diversos problemas de aprendizagem supervisionada. A seleção da função de kernel adequada e seus respectivos parâmetros pode ter grande influência no desempenho do classificador construído. Recentemente, a aprendizagem de múltiplos kernels (Multiple Kernel Learning - MKL) tem sido introduzida para solucionar este problema, permitindo a utilização de múltiplos kernels, ao invés de considerar apenas um kernel para uma dada tarefa. A principal motivação para tal abordagem é similar a considerada na combinação de múltiplos classificadores: ao invés de restringir-se a um único kernel, é preferível utilizar um conjunto de kernels distintos, e deixar que um algoritmo selecione os melhores, ou sua respectiva combinação. Abordagens MKL também podem ser vistas como uma estratégia de integração de dados. Apesar dos avanços técnicos nos últimos anos, as abordagens propostas anteriormente não são capazes de lidar com os grandes espaços de interação entre drogas e proteínas e integrar múltiplas fontes de informação simultaneamente. Neste trabalho, é proposto um método de aprendizagem de múltiplos kernels para a combinação não esparsa de kernels na predição de interações em redes droga-proteína. O método proposto permite a integração de múltiplas fontes heterogêneas de informação para a identificação de novas interações, e também pode ser aplicado em redes de tamanhos arbitrários. Além disso, o método proposto pode também selecionar automaticamente os kernels mais relevantes, retornando pesos que indiquem a sua importância na predição de interações droga-proteína na rede em questão. A análise empírica em quatro bases de dados, utilizando vinte kernels distintos indicou que o método proposto obteve desempenho comparável ou superior a todos os métodos avaliados. Ademais, os pesos associados aos kernels analisados refletiram a qualidade preditiva obtida por cada kernel em experimentos exaustivos para cada par de kernels, um indicativo do sucesso do método em identificar automaticamente fontes de informação biológica relevantes. Nossas análises demonstraram que a estratégia de integração de dados é capaz de melhorar a qualidade das interações preditas, e pode acelerar a identificação de novas interações, bem como identificar informações relevantes para a tarefa.