Detalhes bibliográficos
Ano de defesa: |
2017 |
Autor(a) principal: |
Pilan, José Rafael [UNESP] |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/11449/150319
|
Resumo: |
Na análise de dados metagenômicos temos duas perguntas básicas que podemos fazer: “Quem são?” e “O que estão fazendo?” os microorganismos de uma determinada amostra. Para responder a primeira pergunta utiliza-se a análise taxonômica de microorganismos. Existem diversos software que utilizam diferentes metodologias para atingir essa finalidade. Esses métodos são divididos em duas categorias principais: composicional e alinhamento por similaridade. O que diferencia os métodos são principalmente o tempo para ser realizada a análise, poder computacional e eficiência na identificação dos reads. Nesse trabalho propomos um novo método por composição que utiliza cinco assinaturas genômicas e suas combinações para identificação dos reads: concentração de GC (Guanina/Citocina), entropia de dipletes, entropia de tripletes, entropia de tetrapletes e abundância total de dinucleotı́deos. Utilizamos um conjunto de dados referente a 3055 genomas completos de bactérias provenientes do NCBI (National Center for Biotechnology Information)que foram fragmentados em dois grupos: teste e controle. Os grupos foram fragmentados em tamanhos de 50-1000pb com partições de tamanho 50pb, buscando se aproximar dos tamanhos de reads normalmente gerados pelos equipamentos de sequenciamento de nova geração. O desempenho da metologia foi avaliado por medidas de sensibilidade, especificidade, precisão e média harmônica em comparação aos resultados do grupo teste com o grupo controle. Dentre as combinações analisadas, a concentração de GC apresentou melhor desempenho na identificação dos organismos. Para a comparação do método com os software já existentes, prospectamos 233 amostras no EBI (European Bioinformatics Institute) do projeto “A human gut microbial gene catalog established by deep metagenomic sequencing”, realizamos a análise das amostras com os programas Phymm, Phymmbl e Raiphy e comparamos com os resultados de nossa metodologia. Na comparação, a medida de concentração de GC em conjunto com a medida entropia de dipletes mostrou-se eficiente em comparação as demais atingindo em média 89,5% de identificação dos reads. |