Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Costa, Priscila Caroline de Sousa |
Orientador(a): |
Sakamoto, Tetsu |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal do Rio Grande do Norte
|
Programa de Pós-Graduação: |
PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufrn.br/handle/123456789/51918
|
Resumo: |
Os estudos da proteômica tem mostrado o grande número de proteínas descobertas e a sua importância para o estudo da vida. Porém, ainda existe uma alta porcentagem dessas proteínas que não foram anotadas funcionalmente e que para os avanços da saúde e biotecnológicos essa definição de proteínas desconhecidas é essencial. As funções das proteínas são definidas pela sua conformidade e estrutura tridimensional, por isso, dados da estrutura tridimensional dessas proteínas auxiliam na definição de suas funções. Atualmente, existe uma grande quantidade e diversidade de proteínas que possuem sua sequência caracterizada, porém ainda há um gargalo metodológico para a obtenção de seus dados estruturais. Com o recente desenvolvimento do programa AlphaFold, que prediz de forma acurada a estrutura tridimensional de proteínas a partir de sua sequência de aminoácidos, este gargalo pode ser superado. Assim, o objetivo desse projeto é avaliar o impacto do uso dessas ferramentas de predição estrutural nas anotações funcionais de proteínas. Neste trabalho, procuramos auxiliar na descrição funcional de domínios proteicos de função desconhecida (DUF). Para isso, dados preditos da sua estrutura tridimensional foram submetidos a ferramentas computacionais que realizam uma busca por outras estruturas que compartilhem similaridade estrutural. O presente estudo demonstra que muitos domínios podem ser beneficiados com esta análise. Além disso, geramos um modelo de classificação utilizando o método SVM que se mostrou eficaz apresentando um valor de ROC AUC de 0,9191 e desvio padrão de 0,0099, capaz de identificar se duas proteínas que compartilham uma similaridade estrutural são homólogas remotas, ou seja, se são derivadas de um ancestral em comum. Este classificador será utilizado para analisar os resultados de similaridade e sugerir funções a esses domínios. Dessa forma, seria possível identificar a similaridade estrutural entre proteínas que compartilham baixa similaridade de sequência. |