Classiﬁcação estrutural de proteínas por meio de aprendizado não supervisionado

Monteiro, Cleiton Rodrigues

Classiﬁcação estrutural de proteínas por meio de aprendizado não supervisionado

Detalhes bibliográficos
Ano de defesa:	2019
Autor(a) principal:	Monteiro, Cleiton Rodrigues
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Viçosa Ciência da Computação
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Bioinformática Proteínas - Estrutura Análise por agrupamento Ciência da Computação
Link de acesso:	https://locus.ufv.br//handle/123456789/32255
Resumo:	A bioinformática estrutural se dedica ao estudo das estruturas tridimensionais de proteínas e macromoléculas. Neste trabalho, o interesse está nas estruturas de pro- teínas. A disponibilização de novas sequências e estruturas proteicas em bases pú- blicas de dados tem ocorrido em um ritmo bastante acelerado, aumentando também a necessidade de métodos automáticos e eﬁcientes para a extração e compreensão desse grande volume de dados. Segundo Gao et al. [2018], a bioinformática é uma ciência de mineração e interpretação de dados biológicos. Para eles, o ﬂuxo con- tínuo e crescente desses dados, assim como a necessidade de abordar problemas biomédicos cada vez mais complexos, tem gerado oportunidades desaﬁadoras para pesquisadores de mineração de dados e aprendizagem de máquina. Diversas estraté- gias para classiﬁcação estrutural de proteínas têm sido propostas nos últimos anos, utilizando descritores baseados em sequência e estrutura. Nesta pesquisa, avaliou-se a possibilidade de classiﬁcação estrutural de proteínas utilizando métodos não su- pervisionados associados a características propostas com sucesso em um classiﬁcador estrutural bem estabelecido. Foram realizados experimentos utilizando 5 algoritmos de agrupamento de 4 diferentes paradigmas. A qualidade dos grupos foi avaliada por meio do Coeﬁciente de Silhueta e os rótulos previstos foram comparados às classes e superfamílias da base CATH, por meio do índice Fowlkes Mallows e da veriﬁcação de homogeneidade e completude dos grupos. Os resultados mostram a inviabilidade de classiﬁcação no nível classe, já que os índices alcançados com Fowlkes Mollows não chegaram a 60%. Por outro lado, eles indicam uma capacidade considerável de classiﬁcação no nível superfamília - foi alcançado com o método Complete-Link um índice superior a 70% no agrupamento geral. Os resultados são ainda mais inte- ressantes quando restringe-se o número de grupos, alcançando um índice de 78.5% para topologias com até 25 superfamílias e de 82.8% para topologias com até 5 su- perfamílias. Se considerados ainda, agrupamentos com índice igual ou superior a 85%, eles representam aproximadamente 40% das topologias utilizadas, sendo que deste grupo, quase metade dos agrupamentos (48.19%) obteve um índice de 100% de similaridade, ou seja, em cerca de 20% das topologias, todas as proteínas foram agrupadas corretamente.

Classiﬁcação estrutural de proteínas por meio de aprendizado não supervisionado

Registros relacionados