Classificação estrutural de proteínas por meio de aprendizado não supervisionado

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Monteiro, Cleiton Rodrigues
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://locus.ufv.br//handle/123456789/32255
Resumo: A bioinformática estrutural se dedica ao estudo das estruturas tridimensionais de proteínas e macromoléculas. Neste trabalho, o interesse está nas estruturas de pro- teínas. A disponibilização de novas sequências e estruturas proteicas em bases pú- blicas de dados tem ocorrido em um ritmo bastante acelerado, aumentando também a necessidade de métodos automáticos e eficientes para a extração e compreensão desse grande volume de dados. Segundo Gao et al. [2018], a bioinformática é uma ciência de mineração e interpretação de dados biológicos. Para eles, o fluxo con- tínuo e crescente desses dados, assim como a necessidade de abordar problemas biomédicos cada vez mais complexos, tem gerado oportunidades desafiadoras para pesquisadores de mineração de dados e aprendizagem de máquina. Diversas estraté- gias para classificação estrutural de proteínas têm sido propostas nos últimos anos, utilizando descritores baseados em sequência e estrutura. Nesta pesquisa, avaliou-se a possibilidade de classificação estrutural de proteínas utilizando métodos não su- pervisionados associados a características propostas com sucesso em um classificador estrutural bem estabelecido. Foram realizados experimentos utilizando 5 algoritmos de agrupamento de 4 diferentes paradigmas. A qualidade dos grupos foi avaliada por meio do Coeficiente de Silhueta e os rótulos previstos foram comparados às classes e superfamílias da base CATH, por meio do índice Fowlkes Mallows e da verificação de homogeneidade e completude dos grupos. Os resultados mostram a inviabilidade de classificação no nível classe, já que os índices alcançados com Fowlkes Mollows não chegaram a 60%. Por outro lado, eles indicam uma capacidade considerável de classificação no nível superfamília - foi alcançado com o método Complete-Link um índice superior a 70% no agrupamento geral. Os resultados são ainda mais inte- ressantes quando restringe-se o número de grupos, alcançando um índice de 78.5% para topologias com até 25 superfamílias e de 82.8% para topologias com até 5 su- perfamílias. Se considerados ainda, agrupamentos com índice igual ou superior a 85%, eles representam aproximadamente 40% das topologias utilizadas, sendo que deste grupo, quase metade dos agrupamentos (48.19%) obteve um índice de 100% de similaridade, ou seja, em cerca de 20% das topologias, todas as proteínas foram agrupadas corretamente.