Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo

Detalhes bibliográficos
Autor(a) principal: Barbosa, Denilson Fagundes
Data de Publicação: 2025
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/37936
Resumo: The prediction of protein-coding regions (CDSs) in circular RNAs (circRNAs) and de novo assembled transcriptomes represents significant open challenges in bioinformatics due to the non-canonical nature of translation in circRNAs and the heterogeneity of transcripts generated in assemblies. This thesis proposes computational methods that integrate complementary approaches of kernel methods and probabilistic models to overcome these limitations. We developed four main contributions: (i) circTIS, a tool based on a Support Vector Machine (SVM) with the weighted degree kernel (WDK) for predicting translation initiation sites (TIS) in circRNAs, achieving a precision of 93.12% and sensitivity of 86.03%, outperforming established tools; (ii) cirCodAn, an annotator employing generalized hidden Markov models (GHMMs) adapted to molecular cyclicity, achieving F1-scores of up to 77.06% in identifying CDSs in H. sapiens circRNAs; (iii) strkernels, a high-performance Python package with efficient implementations of string kernels, validated in tasks such as antimicrobial peptide classification (AUC-ROC of 0.99); and (iv) CodAnSVM, a hybrid method combining GHMMs and SVMs for annotating de novo assembled transcriptomes, demonstrating a 5 percentual points F1-score improvement over traditional methods for complete transcripts and satisfactory results for partial transcripts. The results show that integrating generative (GHMMs) and discriminative (SVMs) models enables precise analyses in challenging biological scenarios, such as predicting non-canonical initiation codons and annotating partial transcripts. The developed tools, available as open-source software, address methodological gaps in the study of coding circRNAs and the functional analysis of transcriptomes.
id UTFPR-12_0519d5fa1c1756c9ab06aa4bdf34c31a
oai_identifier_str oai:repositorio.utfpr.edu.br:1/37936
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novoPrediction of protein-coding regions in circular rna and de novo assembled transcriptomesBioinformáticaProteínasBiologia molecularBioinformaticsProteinsMolecular biologyCNPQ::CIENCIAS SOCIAIS APLICADASCiência da ComputaçãoThe prediction of protein-coding regions (CDSs) in circular RNAs (circRNAs) and de novo assembled transcriptomes represents significant open challenges in bioinformatics due to the non-canonical nature of translation in circRNAs and the heterogeneity of transcripts generated in assemblies. This thesis proposes computational methods that integrate complementary approaches of kernel methods and probabilistic models to overcome these limitations. We developed four main contributions: (i) circTIS, a tool based on a Support Vector Machine (SVM) with the weighted degree kernel (WDK) for predicting translation initiation sites (TIS) in circRNAs, achieving a precision of 93.12% and sensitivity of 86.03%, outperforming established tools; (ii) cirCodAn, an annotator employing generalized hidden Markov models (GHMMs) adapted to molecular cyclicity, achieving F1-scores of up to 77.06% in identifying CDSs in H. sapiens circRNAs; (iii) strkernels, a high-performance Python package with efficient implementations of string kernels, validated in tasks such as antimicrobial peptide classification (AUC-ROC of 0.99); and (iv) CodAnSVM, a hybrid method combining GHMMs and SVMs for annotating de novo assembled transcriptomes, demonstrating a 5 percentual points F1-score improvement over traditional methods for complete transcripts and satisfactory results for partial transcripts. The results show that integrating generative (GHMMs) and discriminative (SVMs) models enables precise analyses in challenging biological scenarios, such as predicting non-canonical initiation codons and annotating partial transcripts. The developed tools, available as open-source software, address methodological gaps in the study of coding circRNAs and the functional analysis of transcriptomes.Conselho Nacional do Desenvolvimento Científico e Tecnológico (CNPq)A predição de regiões codificadoras de proteína (CDSs) em RNAs circulares (circRNAs) e transcriptomas montados de novo representam problemas relevantes em aberto na bioinformática, devido à natureza não canônica da tradução em circRNAs e à heterogeneidade de transcritos gerados em montagens. Esta tese propõe métodos computacionais que integram abordagens complementares de métodos de kernel e modelos probabilísticos para superar essas limitações. Desenvolvemos quatro contribuições principais: (i) circTIS, uma ferramenta baseada em uma máquina de vetores de suporte (SVM) com o string kernel de grau ponderado (WDK) para predição de sítios de iniciação de tradução (TIS) em circRNAs, que alcançou precisão de 93,12% e sensibilidade de 86,03%, superando ferramentas consolidadas; (ii)cirCodAn, um anotador que emprega modelos de Markov ocultos generalizados (GHMMs) adaptados à ciclicidade molecular, obtendo F1-scores de até 77,06% na identificação de CDSs em circRNAs de H. sapiens; (iii) strkernels, um pacote Python de alta performance com implementações eficientes de string kernels, validado em tarefas como classificação de peptídeos antimicrobianos (AUC-ROC de 0,99); e (iv) CodAnSVM, um método híbrido que combina GHMMs e SVMs para anotação de transcriptomas de montagens de novo, com ganho de 5 pontos percentuais em F1-score sobre métodos tradicionais em transcritos completos e resultados satisfatórios para transcritos parciais. Os resultados mostram que a integração de modelos generativos (GHMMs) e discriminativos (SVMs) possibilita análises precisas em cenários biológicos desafiadores, como a predição de códons de iniciação não canônicos e a anotação de transcritos parciais. As ferramentas desenvolvidas, disponíveis como software aberto, preenchem lacunas metodológicas no estudo de circRNAs codificantes e na análise funcional de transcriptomas.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)UTFPRKashiwabara, Andre Yoshiakihttps://orcid.org/0000-0003-3280-2035https://lattes.cnpq.br/3194328548975437Durham, Alan Mitchellhttps://lattes.cnpq.br/1927611801056285Paschoal, Alexandre Rossihttps://lattes.cnpq.br/5834088144837137Kashiwabara, Andre Yoshiakihttps://lattes.cnpq.br/3194328548975437Lopes, Fabricio Martinshttps://lattes.cnpq.br/1660070580824436Boas, Laurival Antonio Vilashttps://lattes.cnpq.br/6053806923630324Barbosa, Denilson Fagundes2025-08-19T23:34:32Z2025-08-19T23:34:32Z2025-04-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfBARBOSA, Denilson Fagundes. Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/37936porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-08-20T06:13:29Zoai:repositorio.utfpr.edu.br:1/37936Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-08-20T06:13:29Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
Prediction of protein-coding regions in circular rna and de novo assembled transcriptomes
title Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
spellingShingle Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
Barbosa, Denilson Fagundes
Bioinformática
Proteínas
Biologia molecular
Bioinformatics
Proteins
Molecular biology
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
title_short Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
title_full Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
title_fullStr Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
title_full_unstemmed Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
title_sort Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
author Barbosa, Denilson Fagundes
author_facet Barbosa, Denilson Fagundes
author_role author
dc.contributor.none.fl_str_mv Kashiwabara, Andre Yoshiaki
https://orcid.org/0000-0003-3280-2035
https://lattes.cnpq.br/3194328548975437
Durham, Alan Mitchell
https://lattes.cnpq.br/1927611801056285
Paschoal, Alexandre Rossi
https://lattes.cnpq.br/5834088144837137
Kashiwabara, Andre Yoshiaki
https://lattes.cnpq.br/3194328548975437
Lopes, Fabricio Martins
https://lattes.cnpq.br/1660070580824436
Boas, Laurival Antonio Vilas
https://lattes.cnpq.br/6053806923630324
dc.contributor.author.fl_str_mv Barbosa, Denilson Fagundes
dc.subject.por.fl_str_mv Bioinformática
Proteínas
Biologia molecular
Bioinformatics
Proteins
Molecular biology
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
topic Bioinformática
Proteínas
Biologia molecular
Bioinformatics
Proteins
Molecular biology
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
description The prediction of protein-coding regions (CDSs) in circular RNAs (circRNAs) and de novo assembled transcriptomes represents significant open challenges in bioinformatics due to the non-canonical nature of translation in circRNAs and the heterogeneity of transcripts generated in assemblies. This thesis proposes computational methods that integrate complementary approaches of kernel methods and probabilistic models to overcome these limitations. We developed four main contributions: (i) circTIS, a tool based on a Support Vector Machine (SVM) with the weighted degree kernel (WDK) for predicting translation initiation sites (TIS) in circRNAs, achieving a precision of 93.12% and sensitivity of 86.03%, outperforming established tools; (ii) cirCodAn, an annotator employing generalized hidden Markov models (GHMMs) adapted to molecular cyclicity, achieving F1-scores of up to 77.06% in identifying CDSs in H. sapiens circRNAs; (iii) strkernels, a high-performance Python package with efficient implementations of string kernels, validated in tasks such as antimicrobial peptide classification (AUC-ROC of 0.99); and (iv) CodAnSVM, a hybrid method combining GHMMs and SVMs for annotating de novo assembled transcriptomes, demonstrating a 5 percentual points F1-score improvement over traditional methods for complete transcripts and satisfactory results for partial transcripts. The results show that integrating generative (GHMMs) and discriminative (SVMs) models enables precise analyses in challenging biological scenarios, such as predicting non-canonical initiation codons and annotating partial transcripts. The developed tools, available as open-source software, address methodological gaps in the study of coding circRNAs and the functional analysis of transcriptomes.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-19T23:34:32Z
2025-08-19T23:34:32Z
2025-04-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv BARBOSA, Denilson Fagundes. Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
http://repositorio.utfpr.edu.br/jspui/handle/1/37936
identifier_str_mv BARBOSA, Denilson Fagundes. Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
url http://repositorio.utfpr.edu.br/jspui/handle/1/37936
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498104755748864