Solução de integração e avaliação de softwares de anotação genômica em coffea spp
Ano de defesa: | 2020 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Cornelio Procopio |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Bioinformática
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/5420 |
Resumo: | Um dos maiores desafios da bioinformática é a análise de genomas completos, por exemplo, a identificação de genes preditos computacionalmente e a sua associação com as respectivas funções biológicas. Portanto é importante o design de experimentos que possam testar essas previsões e compara-las com outras já existentes para que se possa mensurar seu desempenho. Realizar o experimento apenas com um software não seria interessante pela necessidade de comparar algoritmos e sua eficiência. Devido ao volume crescente de dados genômicos e transcriptômicos disponíveis, são necessárias pipelines eficientes e acessíveis para gerar predições gênicas e inferir com um maior grau de confiabilidade as suas respectivas funções biológicas. Como melhorar a qualidade da anotação genômica, evitando “over” ou “under prediction” e obtendo mais precisão? Neste trabalho, estudamos qual característica e mais interessante para um software de anotação genômica comparando dois programas, PASA e MAKER, analisando o genoma de Coffea canephora, C. eugenioides e C. arábica. Através da realização dessas pipelines, notou-se através de programas como BUSCO e Quast um aprimoramento no genoma das amostras de café e realizada uma comparação estatística entre esses dois programas. Além disso e proposta uma nova ferramenta automatizada que permite repetir algumas das analises realizadas neste trabalho. Os resultados mostram a eficácia do uso da detecção de todas as possibilidades de splices alternativos no algoritmo de anotação, devido o PASA encontrar mais genes exclusivos e genes localizados igualmente em diferentes regiões dos cromossomos, o que é difícil para muitos preditores de genes. Foram geradas novas versões da anotações dos genomas de C. arábica, C. canephora e C. eugenioides para que possam ser disponibilizadas para utilização pela comunidade científica. Foi desenvolvido um programa Ensemble Solution para viabilizar a automatização da avaliação de software de anotação genômica, o qual trabalhando com arquivos de GFF3, produz listas de genes encontrados exclusivamente por cada software avaliado e gera diagramas de Venn, permitindo importar dados do GenBank (como a tradução das proteínas) e gerar relatórios mais completos. |