Classificação estrutural de proteínas por meio de aprendizado não supervisionado
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Viçosa
Ciência da Computação |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://locus.ufv.br//handle/123456789/32255 |
Resumo: | A bioinformática estrutural se dedica ao estudo das estruturas tridimensionais de proteínas e macromoléculas. Neste trabalho, o interesse está nas estruturas de pro- teínas. A disponibilização de novas sequências e estruturas proteicas em bases pú- blicas de dados tem ocorrido em um ritmo bastante acelerado, aumentando também a necessidade de métodos automáticos e eficientes para a extração e compreensão desse grande volume de dados. Segundo Gao et al. [2018], a bioinformática é uma ciência de mineração e interpretação de dados biológicos. Para eles, o fluxo con- tínuo e crescente desses dados, assim como a necessidade de abordar problemas biomédicos cada vez mais complexos, tem gerado oportunidades desafiadoras para pesquisadores de mineração de dados e aprendizagem de máquina. Diversas estraté- gias para classificação estrutural de proteínas têm sido propostas nos últimos anos, utilizando descritores baseados em sequência e estrutura. Nesta pesquisa, avaliou-se a possibilidade de classificação estrutural de proteínas utilizando métodos não su- pervisionados associados a características propostas com sucesso em um classificador estrutural bem estabelecido. Foram realizados experimentos utilizando 5 algoritmos de agrupamento de 4 diferentes paradigmas. A qualidade dos grupos foi avaliada por meio do Coeficiente de Silhueta e os rótulos previstos foram comparados às classes e superfamílias da base CATH, por meio do índice Fowlkes Mallows e da verificação de homogeneidade e completude dos grupos. Os resultados mostram a inviabilidade de classificação no nível classe, já que os índices alcançados com Fowlkes Mollows não chegaram a 60%. Por outro lado, eles indicam uma capacidade considerável de classificação no nível superfamília - foi alcançado com o método Complete-Link um índice superior a 70% no agrupamento geral. Os resultados são ainda mais inte- ressantes quando restringe-se o número de grupos, alcançando um índice de 78.5% para topologias com até 25 superfamílias e de 82.8% para topologias com até 5 su- perfamílias. Se considerados ainda, agrupamentos com índice igual ou superior a 85%, eles representam aproximadamente 40% das topologias utilizadas, sendo que deste grupo, quase metade dos agrupamentos (48.19%) obteve um índice de 100% de similaridade, ou seja, em cerca de 20% das topologias, todas as proteínas foram agrupadas corretamente. |