Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2025 |
| Tipo de documento: | Tese |
| Idioma: | por |
| Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/37936 |
Resumo: | The prediction of protein-coding regions (CDSs) in circular RNAs (circRNAs) and de novo assembled transcriptomes represents significant open challenges in bioinformatics due to the non-canonical nature of translation in circRNAs and the heterogeneity of transcripts generated in assemblies. This thesis proposes computational methods that integrate complementary approaches of kernel methods and probabilistic models to overcome these limitations. We developed four main contributions: (i) circTIS, a tool based on a Support Vector Machine (SVM) with the weighted degree kernel (WDK) for predicting translation initiation sites (TIS) in circRNAs, achieving a precision of 93.12% and sensitivity of 86.03%, outperforming established tools; (ii) cirCodAn, an annotator employing generalized hidden Markov models (GHMMs) adapted to molecular cyclicity, achieving F1-scores of up to 77.06% in identifying CDSs in H. sapiens circRNAs; (iii) strkernels, a high-performance Python package with efficient implementations of string kernels, validated in tasks such as antimicrobial peptide classification (AUC-ROC of 0.99); and (iv) CodAnSVM, a hybrid method combining GHMMs and SVMs for annotating de novo assembled transcriptomes, demonstrating a 5 percentual points F1-score improvement over traditional methods for complete transcripts and satisfactory results for partial transcripts. The results show that integrating generative (GHMMs) and discriminative (SVMs) models enables precise analyses in challenging biological scenarios, such as predicting non-canonical initiation codons and annotating partial transcripts. The developed tools, available as open-source software, address methodological gaps in the study of coding circRNAs and the functional analysis of transcriptomes. |
| id |
UTFPR-12_0519d5fa1c1756c9ab06aa4bdf34c31a |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/37936 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novoPrediction of protein-coding regions in circular rna and de novo assembled transcriptomesBioinformáticaProteínasBiologia molecularBioinformaticsProteinsMolecular biologyCNPQ::CIENCIAS SOCIAIS APLICADASCiência da ComputaçãoThe prediction of protein-coding regions (CDSs) in circular RNAs (circRNAs) and de novo assembled transcriptomes represents significant open challenges in bioinformatics due to the non-canonical nature of translation in circRNAs and the heterogeneity of transcripts generated in assemblies. This thesis proposes computational methods that integrate complementary approaches of kernel methods and probabilistic models to overcome these limitations. We developed four main contributions: (i) circTIS, a tool based on a Support Vector Machine (SVM) with the weighted degree kernel (WDK) for predicting translation initiation sites (TIS) in circRNAs, achieving a precision of 93.12% and sensitivity of 86.03%, outperforming established tools; (ii) cirCodAn, an annotator employing generalized hidden Markov models (GHMMs) adapted to molecular cyclicity, achieving F1-scores of up to 77.06% in identifying CDSs in H. sapiens circRNAs; (iii) strkernels, a high-performance Python package with efficient implementations of string kernels, validated in tasks such as antimicrobial peptide classification (AUC-ROC of 0.99); and (iv) CodAnSVM, a hybrid method combining GHMMs and SVMs for annotating de novo assembled transcriptomes, demonstrating a 5 percentual points F1-score improvement over traditional methods for complete transcripts and satisfactory results for partial transcripts. The results show that integrating generative (GHMMs) and discriminative (SVMs) models enables precise analyses in challenging biological scenarios, such as predicting non-canonical initiation codons and annotating partial transcripts. The developed tools, available as open-source software, address methodological gaps in the study of coding circRNAs and the functional analysis of transcriptomes.Conselho Nacional do Desenvolvimento Científico e Tecnológico (CNPq)A predição de regiões codificadoras de proteína (CDSs) em RNAs circulares (circRNAs) e transcriptomas montados de novo representam problemas relevantes em aberto na bioinformática, devido à natureza não canônica da tradução em circRNAs e à heterogeneidade de transcritos gerados em montagens. Esta tese propõe métodos computacionais que integram abordagens complementares de métodos de kernel e modelos probabilísticos para superar essas limitações. Desenvolvemos quatro contribuições principais: (i) circTIS, uma ferramenta baseada em uma máquina de vetores de suporte (SVM) com o string kernel de grau ponderado (WDK) para predição de sítios de iniciação de tradução (TIS) em circRNAs, que alcançou precisão de 93,12% e sensibilidade de 86,03%, superando ferramentas consolidadas; (ii)cirCodAn, um anotador que emprega modelos de Markov ocultos generalizados (GHMMs) adaptados à ciclicidade molecular, obtendo F1-scores de até 77,06% na identificação de CDSs em circRNAs de H. sapiens; (iii) strkernels, um pacote Python de alta performance com implementações eficientes de string kernels, validado em tarefas como classificação de peptídeos antimicrobianos (AUC-ROC de 0,99); e (iv) CodAnSVM, um método híbrido que combina GHMMs e SVMs para anotação de transcriptomas de montagens de novo, com ganho de 5 pontos percentuais em F1-score sobre métodos tradicionais em transcritos completos e resultados satisfatórios para transcritos parciais. Os resultados mostram que a integração de modelos generativos (GHMMs) e discriminativos (SVMs) possibilita análises precisas em cenários biológicos desafiadores, como a predição de códons de iniciação não canônicos e a anotação de transcritos parciais. As ferramentas desenvolvidas, disponíveis como software aberto, preenchem lacunas metodológicas no estudo de circRNAs codificantes e na análise funcional de transcriptomas.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)UTFPRKashiwabara, Andre Yoshiakihttps://orcid.org/0000-0003-3280-2035https://lattes.cnpq.br/3194328548975437Durham, Alan Mitchellhttps://lattes.cnpq.br/1927611801056285Paschoal, Alexandre Rossihttps://lattes.cnpq.br/5834088144837137Kashiwabara, Andre Yoshiakihttps://lattes.cnpq.br/3194328548975437Lopes, Fabricio Martinshttps://lattes.cnpq.br/1660070580824436Boas, Laurival Antonio Vilashttps://lattes.cnpq.br/6053806923630324Barbosa, Denilson Fagundes2025-08-19T23:34:32Z2025-08-19T23:34:32Z2025-04-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfBARBOSA, Denilson Fagundes. Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/37936porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-08-20T06:13:29Zoai:repositorio.utfpr.edu.br:1/37936Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-08-20T06:13:29Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo Prediction of protein-coding regions in circular rna and de novo assembled transcriptomes |
| title |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo |
| spellingShingle |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo Barbosa, Denilson Fagundes Bioinformática Proteínas Biologia molecular Bioinformatics Proteins Molecular biology CNPQ::CIENCIAS SOCIAIS APLICADAS Ciência da Computação |
| title_short |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo |
| title_full |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo |
| title_fullStr |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo |
| title_full_unstemmed |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo |
| title_sort |
Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo |
| author |
Barbosa, Denilson Fagundes |
| author_facet |
Barbosa, Denilson Fagundes |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Kashiwabara, Andre Yoshiaki https://orcid.org/0000-0003-3280-2035 https://lattes.cnpq.br/3194328548975437 Durham, Alan Mitchell https://lattes.cnpq.br/1927611801056285 Paschoal, Alexandre Rossi https://lattes.cnpq.br/5834088144837137 Kashiwabara, Andre Yoshiaki https://lattes.cnpq.br/3194328548975437 Lopes, Fabricio Martins https://lattes.cnpq.br/1660070580824436 Boas, Laurival Antonio Vilas https://lattes.cnpq.br/6053806923630324 |
| dc.contributor.author.fl_str_mv |
Barbosa, Denilson Fagundes |
| dc.subject.por.fl_str_mv |
Bioinformática Proteínas Biologia molecular Bioinformatics Proteins Molecular biology CNPQ::CIENCIAS SOCIAIS APLICADAS Ciência da Computação |
| topic |
Bioinformática Proteínas Biologia molecular Bioinformatics Proteins Molecular biology CNPQ::CIENCIAS SOCIAIS APLICADAS Ciência da Computação |
| description |
The prediction of protein-coding regions (CDSs) in circular RNAs (circRNAs) and de novo assembled transcriptomes represents significant open challenges in bioinformatics due to the non-canonical nature of translation in circRNAs and the heterogeneity of transcripts generated in assemblies. This thesis proposes computational methods that integrate complementary approaches of kernel methods and probabilistic models to overcome these limitations. We developed four main contributions: (i) circTIS, a tool based on a Support Vector Machine (SVM) with the weighted degree kernel (WDK) for predicting translation initiation sites (TIS) in circRNAs, achieving a precision of 93.12% and sensitivity of 86.03%, outperforming established tools; (ii) cirCodAn, an annotator employing generalized hidden Markov models (GHMMs) adapted to molecular cyclicity, achieving F1-scores of up to 77.06% in identifying CDSs in H. sapiens circRNAs; (iii) strkernels, a high-performance Python package with efficient implementations of string kernels, validated in tasks such as antimicrobial peptide classification (AUC-ROC of 0.99); and (iv) CodAnSVM, a hybrid method combining GHMMs and SVMs for annotating de novo assembled transcriptomes, demonstrating a 5 percentual points F1-score improvement over traditional methods for complete transcripts and satisfactory results for partial transcripts. The results show that integrating generative (GHMMs) and discriminative (SVMs) models enables precise analyses in challenging biological scenarios, such as predicting non-canonical initiation codons and annotating partial transcripts. The developed tools, available as open-source software, address methodological gaps in the study of coding circRNAs and the functional analysis of transcriptomes. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08-19T23:34:32Z 2025-08-19T23:34:32Z 2025-04-29 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
BARBOSA, Denilson Fagundes. Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. http://repositorio.utfpr.edu.br/jspui/handle/1/37936 |
| identifier_str_mv |
BARBOSA, Denilson Fagundes. Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/37936 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr) UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio Brasil Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr) UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498104755748864 |