Diferenciação de espécies através de algoritmos de análise de informação mútua utilizando dados de sequências nucleotídicas

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Lichtenstein, Flavio [UNIFESP]
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de São Paulo (UNIFESP)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3326271
http://repositorio.unifesp.br/handle/11600/48937
Resumo: Os métodos matemáticos de correlação são muito utilizados como apoio a inferências em estudos de biologia, desde os primeiros estudos antropométricos de Galton, até hoje em dia, como nas análises de transcriptômica (p.ex., GWEA - genome-wide enrichment analysis) e proteômica (por ex., correlação entre abundância de proteínas e RNA). Correlações mais complexas são fenômenos biológicos resultados de muitas interações em diferentes locais e momentos em um organismo vivo. Ao acúmulo resultante destas interações dá-se o nome de "fenômenos emergentes" fazendo parte do que se denomina de "complexidade biológica". Logo, métodos matemáticos lineares dificilmente captam a essência destas correlações, ou seja, eles são na melhor das hipóteses uma primeira aproximação. Estes fenômenos surgem, por vezes, ao tentarmos vincular dados de DNA, RNA ou proteínas com fenótipos. Portanto, ou se tenta isolar pouquíssimos fatores numa escala de tempo pequena, ou tem que se utilizar métodos que possam avaliar a complexidade informacional. É com base na discussão acima que discriminar espécies através de dados moleculares torna-se uma tarefa que somente pode ser realizada com métodos sensíveis a conceitos de complexidade. Como a Teoria da Informação (TI) aborda tais métodos, utilizamos os mesmos de maneira a analisar a possiblidade de discriminar espécies por intermédio das informações de sequências de nucleotídeos (DNA). Nos últimos 30 anos os estudos de correlações de longo e pequeno alcance de sequências biológicas foram importantes na genômica em respeito à covariação molecular. Tais correlações foram estudadas utilizando-se Entropia e Informação Mútua. Esta última é uma medida de variação entre duas variáveis, independente de um modelo evolucionário assumido. Portanto, extrair sequências de DNA de bancos de dados públicos ou obtê-las em laboratório, alinhá-las (se necessário) e calcular valores informacionais para posterior análise é a meta do presente trabalho. Uma vez que não há um software amigável para as funções recém-relatadas, construímos o MIA, analisador de informação mútua (mutual information analyzer), que é capaz de obter sequências, alinhá-las e calcular espectros normalizados como Entropia Vertical (VH, vertical entropy), Informação Mútua Vertical (VMI, vertical mutual information) e Informação Mútua Horizontal (HMI, horizontal mutual information). Uma vez calculadas as entropias e informação mútuas podemos transformá-las em espectros normalizados. Dados, dois espectros normalizados de espécies distintas pode-se calcular a distância entre ambos através do método de Divergência de Jensen-Shannon (JSD). De posse de todas as distâncias par-a-par entre espécies e medidos seus respectivos erros padrões (SE), pode-se construir uma matriz de distância, principal ferramenta para inferir se diferentes espécies são discriminadas molecularmente. Além disto, pode-se clusterizar as espécies com os dados da matriz de distância ou apresentar a mesma na forma de um histograma de distâncias. A clusterização hierárquica permite analisar os clusters de espécies mais próximas e pode-se compará-los às árvores filogenéticas, quanto à possível organização dos mesmos (topologia). Porém, ressaltamos que a clusterização não é uma árvore filogenética. De maneira a testar o MIA nós analisamos sequências do lócus de Adh (álcool desidrogenase) de Drosófilas, além de outros gêneros/genes, porque a taxonomia e padrões evolucionários estão bem descritos na literatura e foram extensivamente estudados. O MIA teve uma boa performance fazendo todo o processo de coleta de sequências de DNA, cálculo e apresentação de espectros entrópicos entre 10 minutos e 3 horas, dependendo do gênero/gene escolhido. Nossos testes revelaram que os métodos abordados, resultaram em dados que estão em acordo com propriedades biológicas (estruturas de árvores filogenéticas) e consistentes com a taxonomia de Drosófilas e seus modelos evolucionários. O MIA superou em funcionalidade outros programas disponibilizados como, por exemplo, o BioEdit que tem as funções de cálculo de VH e VMI, com a vantagem de entrada de dados da interface bem amigáveis e integradas, além de visualização dos resultados na forma de tabelas e gráficos. Ao final da análise pudemos observar que as distâncias obtidas por JSD de espectros normalizados de Informação Mútua Horizontal puderam discriminar 17 espécies de Drosófilas, além de criarem clusters de espécies muito próximos dos gerados por árvores filogenéticas obtidas pelas mesmas sequências originais pelos métodos de Maximum Likelihood (ML), Neighbor Joining (NJ) e Mr. Bayes (árvores bayesianas). Uma vez que as árvores bayesianas permitem uma análise estatística para todos os seus parâmetros, pudemos mostrar que árvores calculadas no modelo covarion são melhores que as árvores calculadas no modelo padrão (não covarion). Ou seja, o teste de razão de verossimilhança (likelihood ratio test, LRT) se mostrou significativo, fato que dá suporte à hipótese covariacional. Por fim, desenvolvemos um classificador, que resulta numa curva ROC, o qual mostrou que o método JSD combinado com Informação Mútua Horizontal atinge simultaneamente alta sensibilidade e especificidade.