Desenvolvimento de um método de classificação taxonômica de dados de metagenomas

Pilan, José Rafael [UNESP]

Desenvolvimento de um método de classificação taxonômica de dados de metagenomas

Detalhes bibliográficos
Ano de defesa:	2017
Autor(a) principal:	Pilan, José Rafael [UNESP]
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Metagenômica Taxonomia numérica Metagenoma Micro-organismos Código genético
Link de acesso:	http://hdl.handle.net/11449/150319
Resumo:	Na análise de dados metagenômicos temos duas perguntas básicas que podemos fazer: “Quem são?” e “O que estão fazendo?” os microorganismos de uma determinada amostra. Para responder a primeira pergunta utiliza-se a análise taxonômica de microorganismos. Existem diversos software que utilizam diferentes metodologias para atingir essa finalidade. Esses métodos são divididos em duas categorias principais: composicional e alinhamento por similaridade. O que diferencia os métodos são principalmente o tempo para ser realizada a análise, poder computacional e eficiência na identificação dos reads. Nesse trabalho propomos um novo método por composição que utiliza cinco assinaturas genômicas e suas combinações para identificação dos reads: concentração de GC (Guanina/Citocina), entropia de dipletes, entropia de tripletes, entropia de tetrapletes e abundância total de dinucleotı́deos. Utilizamos um conjunto de dados referente a 3055 genomas completos de bactérias provenientes do NCBI (National Center for Biotechnology Information)que foram fragmentados em dois grupos: teste e controle. Os grupos foram fragmentados em tamanhos de 50-1000pb com partições de tamanho 50pb, buscando se aproximar dos tamanhos de reads normalmente gerados pelos equipamentos de sequenciamento de nova geração. O desempenho da metologia foi avaliado por medidas de sensibilidade, especificidade, precisão e média harmônica em comparação aos resultados do grupo teste com o grupo controle. Dentre as combinações analisadas, a concentração de GC apresentou melhor desempenho na identificação dos organismos. Para a comparação do método com os software já existentes, prospectamos 233 amostras no EBI (European Bioinformatics Institute) do projeto “A human gut microbial gene catalog established by deep metagenomic sequencing”, realizamos a análise das amostras com os programas Phymm, Phymmbl e Raiphy e comparamos com os resultados de nossa metodologia. Na comparação, a medida de concentração de GC em conjunto com a medida entropia de dipletes mostrou-se eficiente em comparação as demais atingindo em média 89,5% de identificação dos reads.

Desenvolvimento de um método de classificação taxonômica de dados de metagenomas

Registros relacionados