Influência do número de repetições na identificação de genes diferencialmente expressos em experimentos de RNA-Seq

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Gonçalves, Jaciane Coelho
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
BR
Estatística Aplicada e Biometria
Mestrado em Estatística Aplicada e Biometria
UFV
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://locus.ufv.br/handle/123456789/4066
Resumo: Um dos objetivos atuais da biologia molecular é medir e avaliar os perfis de expressão gênica em diferentes tipos de tecidos biológicos, para entender os mecanismos de transformação molecular sob determinadas condições. Tecnologias de sequenciamento de Nova Geração (NGS) promovem o sequenciamento de DNA em plataformas capazes de gerar informações sobre milhões de pares de bases em uma única etapa. Porém essas tecnologias ainda apresentam custo elevado, dificultando a obtenção de elevado número de repetições de dados amostrais. Assim, torna-se necessária a descoberta e o aprimoramento de metodologias estatísticas eficientes para a otimização das análises de dados gerados em plataformas de sequenciamento de genomas. O objetivo geral desse trabalho consistiu em avaliar o efeito do número de repetições na identificação de genes diferencialmente expressos, em experimentos de RNA-Seq, contribuindo para o esclarecimento de pesquisadores que venham a auxiliar nas análises de dados em experimentos de RNA-Seq. De forma específica, avaliamos empiricamente o efeito do número de repetições na análise estatística da expressão gênica em experimentos de RNA-Seq. Para a realização das análises foi utilizado um conjunto de dados definido em Li et al. (2008), o qual comparou células cancerígenas tratadas e não tratadas. Naquele estudo havia quatro repetições biológicas para o grupo controle (células não tratadas) e três repetições biológicas para grupo de tratamento (células que receberam o tratamento). Os dados foram analisados utilizando o pacote DESeq do Programa computacional R. Um total de 2566 genes foram considerados diferencialmente expressos (DE) quando avaliamos o conjunto de dados original completo. Quando analisamos três repetições do controle e do tratamento, nós encontramos, em média, 2153 genes DE. A partir do momento em que apenas duas repetições para ambos os tratamentos foram utilizadas, foram identificadas, em média, 1241 genes DE. A grande alteração no número de genes DE foi observada quando repetições não foram utilizadas. Nesse caso identificamos em torno de 44 genes diferencialmente expressos. De acordo com os resultados gerados nas análises, foi possível verificar que o número de repetições é um fator essencial para se obter um número significativo de genes diferencialmente expressos.