Uma estratégia hierárquica e escalável para classificação estrutural de proteínas

Mendes, Vinício Fragoso

Uma estratégia hierárquica e escalável para classificação estrutural de proteínas

Detalhes bibliográficos
Ano de defesa:	2019
Autor(a) principal:	Mendes, Vinício Fragoso
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Viçosa Ciência da Computação
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Proteínas - Classificação CATH (Banco de dados) EC number (Código numérico) SCOP (Banco de dados) Modelos multiníveis (Estatísticas) Ciência da Computação
Link de acesso:	https://locus.ufv.br//handle/123456789/30201
Resumo:	A predição da classificação estrutural proteica é uma tarefa relevante, mas desafiadora e complexa, onde os dados estruturais das proteínas possuem grandes quantidades de informação a respeito de suas funções e relação entre proteína e seu gene codificante. Com o aumento dos dados biológicos publicamente disponíveis, há uma demanda por métodos computacionais para organizar, anotar e compreender os dados. Cada vez mais, são necessárias as tentativas de atribuir automaticamente a classificação estrutural ou da função proteica. Com o grande montante de dados reconhecidos e depositados, é difícil ou até mesmo impossível inferir manualmente a classificação proteica. Este trabalho propõe uma estratégia de aprendizado supervisionado para realizar a classificação estrutural de proteínas, com um interesse Particular em modelos hierárquicos. Para avaliar a estratégia proposta, foram realizados três experimentos utilizando dados estruturais de proteínas disponíveis em bancos de dados biológicos (CATH, SCOPe e BRENDA). Cada conjunto de dados está associado a um esquema de classificação hierárquica bem conhecido (CATH, SCOP, EC Number). Primeiro os dados estruturais contendo a posição de cada átomo no espaço 3D foram modelados como uma matriz de distância (CSM - Cutoff Scanning Matrix). Em seguida, a quantidade de dados foi reduzida e parte do ruído removido, ambos a partir da aplicação do SVD (Singular Value Decomposition) à matriz. Em seguida, foi utilizada a matriz reduzida como entrada para o modelo, que é capaz de prever corretamente classificação na maioria das vezes. Foi mostrado que a precisão do modelo varia de 86% a 95% ao prever a classificação de CATH, SCOP e EC Number, valores compatíveis ou superiores ao estado da arte em alguns casos. Palavras-chave: Classificação hierárquica de proteínas. CATH. EC number. SCOP.

Uma estratégia hierárquica e escalável para classificação estrutural de proteínas

Registros relacionados