Workflow científico de anotação genômica funcional e curadoria manual de genomas

Bibliographic Details
Main Author: Balbinot, Eduardo
Publication Date: 2020
Format: Master thesis
Language: por
Source: Repositório Institucional da UCS
Download full: https://repositorio.ucs.br/11338/6896
Summary: Com o advento das tecnologias de sequenciamento de nova geração, o sequenciamento de genomas não se apresentou mais como uma barreira tecnológica. Analisar a estrutura e atribuir um significado biológico para sequências genômicas e proteômicas in silico (anotação genômica), no entanto, se tornou a nova tarefa desafiadora. A anotação funcional é uma etapa crucial neste processo e tem por intuito compreender os processos biológicos dos organismos e guiar novas pesquisas. Entretanto, trata-se de uma tarefa complexa, já que envolve a utilização de um grande número de bancos de dados, web servers e ferramentas para realizar comparações das sequências de interesse com outras sequências disponíveis em repositórios de domínios de proteínas. Cada ferramenta possui arquivos de saída independentes e em formatos específicos, dificultando a organização dos resultados de anotação em um único contexto e o trabalho colaborativo de múltiplos pesquisadores em um mesmo projeto. O objetivo desta pesquisa compreendeu o desenvolvimento de um workflow científico de anotação genômica funcional e curadoria manual de genomas, através da implementação de uma ferramenta web colaborativa que permite a execução automática de ferramentas de anotação funcional e integração dos resultados em uma plataforma unificada. A solução ainda permite a realização de curadoria manual de informações estruturais e funcionais para cada gene, além de suportar a exportação dos dados de anotação para os formatos exigidos no processo de submissão do banco de dados GenBank. O worflow foi testado e validado no processo de anotação genômica das linhagens selvagem (2HH) e mutante (S1M29) do fungo Penicillium echinulatum, conduzido pelo Laboratório de Bioinformática e Biologia Computacional da Universidade de Caxias do Sul e submetido ao GenBank através dos BioProjects PRJNA520890 e PRJNA521489, respectivamente. Além disso, uma versão experimental da ferramenta foi disponibilizada gratuitamente através do endereço https://seq2annot.org. A solução mostrou-se eficiente em função de abstrair a complexidade de execução de ferramentas externas e integrar os resultados de anotação em um ambiente colaborativo unificado. O mecanismo central de tarefas assíncronas permitiu a possibilidade de escalar horizontalmente os recursos de servidor à medida que ocorrer o aumento da demanda de trabalho. A decisão arquitetural de dividir trabalhos em pequenas unidades de trabalho independentes também garantiu que novas ferramentas de anotação funcional possam ser facilmente desenvolvidas e acopladas à aplicação, tornando-a uma solução promissora para ser constantemente aprimorada e utilizada em projetos de anotação genômica em larga escala no futuro. [resumo fornecido pelo autor]
id UCS_7a1b4f8e9e21f46e10db1b54cbe524a0
oai_identifier_str oai:repositorio.ucs.br:11338/6896
network_acronym_str UCS
network_name_str Repositório Institucional da UCS
repository_id_str
spelling Balbinot, EduardoHorita, FlávioKremer, FredericoCamassola, MarliDillon, Aldo José Pinheiro2021-04-13T13:31:13Z2021-04-13T13:31:13Z2021-04-072020-12-17https://repositorio.ucs.br/11338/6896Com o advento das tecnologias de sequenciamento de nova geração, o sequenciamento de genomas não se apresentou mais como uma barreira tecnológica. Analisar a estrutura e atribuir um significado biológico para sequências genômicas e proteômicas in silico (anotação genômica), no entanto, se tornou a nova tarefa desafiadora. A anotação funcional é uma etapa crucial neste processo e tem por intuito compreender os processos biológicos dos organismos e guiar novas pesquisas. Entretanto, trata-se de uma tarefa complexa, já que envolve a utilização de um grande número de bancos de dados, web servers e ferramentas para realizar comparações das sequências de interesse com outras sequências disponíveis em repositórios de domínios de proteínas. Cada ferramenta possui arquivos de saída independentes e em formatos específicos, dificultando a organização dos resultados de anotação em um único contexto e o trabalho colaborativo de múltiplos pesquisadores em um mesmo projeto. O objetivo desta pesquisa compreendeu o desenvolvimento de um workflow científico de anotação genômica funcional e curadoria manual de genomas, através da implementação de uma ferramenta web colaborativa que permite a execução automática de ferramentas de anotação funcional e integração dos resultados em uma plataforma unificada. A solução ainda permite a realização de curadoria manual de informações estruturais e funcionais para cada gene, além de suportar a exportação dos dados de anotação para os formatos exigidos no processo de submissão do banco de dados GenBank. O worflow foi testado e validado no processo de anotação genômica das linhagens selvagem (2HH) e mutante (S1M29) do fungo Penicillium echinulatum, conduzido pelo Laboratório de Bioinformática e Biologia Computacional da Universidade de Caxias do Sul e submetido ao GenBank através dos BioProjects PRJNA520890 e PRJNA521489, respectivamente. Além disso, uma versão experimental da ferramenta foi disponibilizada gratuitamente através do endereço https://seq2annot.org. A solução mostrou-se eficiente em função de abstrair a complexidade de execução de ferramentas externas e integrar os resultados de anotação em um ambiente colaborativo unificado. O mecanismo central de tarefas assíncronas permitiu a possibilidade de escalar horizontalmente os recursos de servidor à medida que ocorrer o aumento da demanda de trabalho. A decisão arquitetural de dividir trabalhos em pequenas unidades de trabalho independentes também garantiu que novas ferramentas de anotação funcional possam ser facilmente desenvolvidas e acopladas à aplicação, tornando-a uma solução promissora para ser constantemente aprimorada e utilizada em projetos de anotação genômica em larga escala no futuro. [resumo fornecido pelo autor]With the advent of new generation sequencing technologies, genome sequencing was no longer a scientific barrier. Analysing the structure and giving biological meaning to genomic and proteomic sequences in silico(genome annotation) became, nevertheless, the new challenging task. Functional annotation is a crucial step in this process and aims to understand organisms? biological processes and guide new research. However, it is a complex task, as it involves usinga large set of databases, web servers, and tools to compare all the sequences of interest with other sequences available in protein domain repositories. Each of these tools has independentand format-specific output files, making it difficult to keep annotation data organized in a single-context environment and preventing researchers from working collaboratively within a project. This research aimed to develop a scientific workflow for functional annotation and manual curation of genomes by implementing a collaborative web application that supports the automatic execution of functional annotation tools and integrates results into a single-context platform. The solution also supports manual curation of structural and functional data for each gene and allows users to export annotation results to file formats required by GenBank database?s submission process. The workflow was tested and validated in the annotation process of wild-type (2HH) and mutant (S1M29) strains of Penicillium echinulatum, conducted by Computational Biology and Bioinformatics Laboratory at University of Caxias do Sul and submitted to GenBank under BioProjects PRJNA520890 and PRJNA521489, respectively. Besides, an experimental version of the tool was made freely available at https://seq2annot.org. The solution has proven effective as it abstracts the complexity of the external tools? execution and integrates annotation results in a unified collaborative environment. The core mechanism of asynchronous task execution provided the ability to horizontally scale server resources as demand grows over time. The architectural decision of splitting jobs into single independent tasks also ensured that new functional annotation tools can be easily developed and plugged into the application, making it a promising tool to be continuously improved and used in large-scale genome annotation projects in the future. [resumo fornecido pelo autor]Coordenação de Aperfeiçoamento de Pessoal de Nível Superior, CAPESBioinformáticaBiotecnologiaGenomaFluxo de trabalhoBioinformaticsBiotechnologyGenomesWorkflowWorkflow científico de anotação genômica funcional e curadoria manual de genomasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UCSinstname:Universidade de Caxias do Sul (UCS)instacron:UCSinfo:eu-repo/semantics/openAccessUniversidade de Caxias do Sulhttp://lattes.cnpq.br/3719972248851596Balbinot, EduardoMestrado Acadêmico em BiotecnologiaSilva, Scheila de AvilaCampus Universitário de Caxias do Sul2021-04-06ORIGINALDissertação Eduardo Balbinot.pdfDissertação Eduardo Balbinot.pdfapplication/pdf5393108https://repositorio.ucs.br/xmlui/bitstream/11338/6896/1/Disserta%c3%a7%c3%a3o%20Eduardo%20Balbinot.pdfa0a298b387a04821c7c769722c608f1bMD51TEXTDissertação Eduardo Balbinot.pdf.txtDissertação Eduardo Balbinot.pdf.txtExtracted texttext/plain234695https://repositorio.ucs.br/xmlui/bitstream/11338/6896/2/Disserta%c3%a7%c3%a3o%20Eduardo%20Balbinot.pdf.txt294f4fc88d5d430417600e84da235861MD52THUMBNAILDissertação Eduardo Balbinot.pdf.jpgDissertação Eduardo Balbinot.pdf.jpgGenerated Thumbnailimage/jpeg1332https://repositorio.ucs.br/xmlui/bitstream/11338/6896/3/Disserta%c3%a7%c3%a3o%20Eduardo%20Balbinot.pdf.jpgdce39504250292353f02749379c1ac62MD5311338/68962021-05-07 14:10:35.796oai:repositorio.ucs.br:11338/6896Repositório de Publicaçõeshttp://repositorio.ucs.br/oai/requestopendoar:2024-05-06T10:02:21.094330Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)false
dc.title.pt_BR.fl_str_mv Workflow científico de anotação genômica funcional e curadoria manual de genomas
title Workflow científico de anotação genômica funcional e curadoria manual de genomas
spellingShingle Workflow científico de anotação genômica funcional e curadoria manual de genomas
Balbinot, Eduardo
Bioinformática
Biotecnologia
Genoma
Fluxo de trabalho
Bioinformatics
Biotechnology
Genomes
Workflow
title_short Workflow científico de anotação genômica funcional e curadoria manual de genomas
title_full Workflow científico de anotação genômica funcional e curadoria manual de genomas
title_fullStr Workflow científico de anotação genômica funcional e curadoria manual de genomas
title_full_unstemmed Workflow científico de anotação genômica funcional e curadoria manual de genomas
title_sort Workflow científico de anotação genômica funcional e curadoria manual de genomas
author Balbinot, Eduardo
author_facet Balbinot, Eduardo
author_role author
dc.contributor.other.none.fl_str_mv Horita, Flávio
Kremer, Frederico
Camassola, Marli
dc.contributor.author.fl_str_mv Balbinot, Eduardo
dc.contributor.advisor1.fl_str_mv Dillon, Aldo José Pinheiro
contributor_str_mv Dillon, Aldo José Pinheiro
dc.subject.por.fl_str_mv Bioinformática
Biotecnologia
Genoma
Fluxo de trabalho
topic Bioinformática
Biotecnologia
Genoma
Fluxo de trabalho
Bioinformatics
Biotechnology
Genomes
Workflow
dc.subject.eng.fl_str_mv Bioinformatics
Biotechnology
Genomes
Workflow
description Com o advento das tecnologias de sequenciamento de nova geração, o sequenciamento de genomas não se apresentou mais como uma barreira tecnológica. Analisar a estrutura e atribuir um significado biológico para sequências genômicas e proteômicas in silico (anotação genômica), no entanto, se tornou a nova tarefa desafiadora. A anotação funcional é uma etapa crucial neste processo e tem por intuito compreender os processos biológicos dos organismos e guiar novas pesquisas. Entretanto, trata-se de uma tarefa complexa, já que envolve a utilização de um grande número de bancos de dados, web servers e ferramentas para realizar comparações das sequências de interesse com outras sequências disponíveis em repositórios de domínios de proteínas. Cada ferramenta possui arquivos de saída independentes e em formatos específicos, dificultando a organização dos resultados de anotação em um único contexto e o trabalho colaborativo de múltiplos pesquisadores em um mesmo projeto. O objetivo desta pesquisa compreendeu o desenvolvimento de um workflow científico de anotação genômica funcional e curadoria manual de genomas, através da implementação de uma ferramenta web colaborativa que permite a execução automática de ferramentas de anotação funcional e integração dos resultados em uma plataforma unificada. A solução ainda permite a realização de curadoria manual de informações estruturais e funcionais para cada gene, além de suportar a exportação dos dados de anotação para os formatos exigidos no processo de submissão do banco de dados GenBank. O worflow foi testado e validado no processo de anotação genômica das linhagens selvagem (2HH) e mutante (S1M29) do fungo Penicillium echinulatum, conduzido pelo Laboratório de Bioinformática e Biologia Computacional da Universidade de Caxias do Sul e submetido ao GenBank através dos BioProjects PRJNA520890 e PRJNA521489, respectivamente. Além disso, uma versão experimental da ferramenta foi disponibilizada gratuitamente através do endereço https://seq2annot.org. A solução mostrou-se eficiente em função de abstrair a complexidade de execução de ferramentas externas e integrar os resultados de anotação em um ambiente colaborativo unificado. O mecanismo central de tarefas assíncronas permitiu a possibilidade de escalar horizontalmente os recursos de servidor à medida que ocorrer o aumento da demanda de trabalho. A decisão arquitetural de dividir trabalhos em pequenas unidades de trabalho independentes também garantiu que novas ferramentas de anotação funcional possam ser facilmente desenvolvidas e acopladas à aplicação, tornando-a uma solução promissora para ser constantemente aprimorada e utilizada em projetos de anotação genômica em larga escala no futuro. [resumo fornecido pelo autor]
publishDate 2020
dc.date.submitted.none.fl_str_mv 2020-12-17
dc.date.accessioned.fl_str_mv 2021-04-13T13:31:13Z
dc.date.available.fl_str_mv 2021-04-13T13:31:13Z
dc.date.issued.fl_str_mv 2021-04-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ucs.br/11338/6896
url https://repositorio.ucs.br/11338/6896
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UCS
instname:Universidade de Caxias do Sul (UCS)
instacron:UCS
instname_str Universidade de Caxias do Sul (UCS)
instacron_str UCS
institution UCS
reponame_str Repositório Institucional da UCS
collection Repositório Institucional da UCS
bitstream.url.fl_str_mv https://repositorio.ucs.br/xmlui/bitstream/11338/6896/1/Disserta%c3%a7%c3%a3o%20Eduardo%20Balbinot.pdf
https://repositorio.ucs.br/xmlui/bitstream/11338/6896/2/Disserta%c3%a7%c3%a3o%20Eduardo%20Balbinot.pdf.txt
https://repositorio.ucs.br/xmlui/bitstream/11338/6896/3/Disserta%c3%a7%c3%a3o%20Eduardo%20Balbinot.pdf.jpg
bitstream.checksum.fl_str_mv a0a298b387a04821c7c769722c608f1b
294f4fc88d5d430417600e84da235861
dce39504250292353f02749379c1ac62
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)
repository.mail.fl_str_mv
_version_ 1822887765873786880