Inferência de genes diferencialmente expressos utilizando modelos lineares generalizados mistos

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Machado, Douglas Terra
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.lncc.br/handle/tede/348
Resumo: Com o avanço tecnológico envolvendo o sequenciamento de RNAs (RNA-Seq, do inglês: RNA-Sequencing) e com auxílio de ferramentas da Bioinformática, é possível quantificar os níveis transcricionais dos genes em células, tecidos e linhagens celulares possibilitando a identificação de Genes Diferencialmente Expressos (GDEs). Na literatura científica, as ferramentas DESeq2 e edgeR são usadas para essa inferência por meio dos modelos lineares generalizados, que são modelos que consideram apenas os efeitos fixos no desenho experimental. Entretanto, a não inclusão dos efeitos aleatórios, que são efeitos que causam mais variabilidade no desenho experimental, gera a possibilidade de que possíveis GDEs que poderiam ser importantes no contexto do fenômeno biológico de estudo sejam perdidos. Esta dissertação propõe o desenvolvimento de duas ferramentas computacionais que utilizam os efeitos fixos e os efeitos aleatórios para uma inferência acurada de GDEs: DEGFiE (Differentially Expressed Genes with Fixed Effects, em português: Expressão Gênica Diferencial com Efeitos Fixos) e DEGRE (Differentially Expressed Genes with Random Effects, em português: Expressão Gênica Diferencial com Efeitos Aleatórios). O coeficiente de variação biológica foi inferido nas matrizes de contagem para analisar as variabilidades técnica e biológica dos conjuntos de dados antes e após a etapa de pré-processamento. A validação computacional das ferramentas DEGFiE e DEGRE foi realizada por meio da simulação de matrizes de contagem, as quais possuem a variabilidade biológica relacionada aos efeitos fixos e aos efeitos aleatórios. Além das matrizes simuladas, foram recuperados dados públicos de RNA-Seq tanto de pacientes com desordem de bipolaridade quanto de indivíduos saudáveis. Esses dados foram utilizados como análise preliminar da aplicação da ferramenta DEGRE em experimentos reais, auxiliando na validação desta ferramenta. A performance na detecção dos GDEs das ferramentas DEGFiE e DEGRE foi comparada com as ferramentas DESeq2 e edgeR e avaliada por meio das métricas de avaliação: acurácia, precisão e sensibilidade. A ferramenta DEGFiE apresentou as métricas de avaliação equivalentes com as ferramentas DESeq2 e edgeR, evidenciando que o pré-processamento desenvolvido nesta dissertação foi eficiente na remoção de ruídos técnicos das matrizes. A ferramenta DEGRE apresentou melhores métricas de avaliação na detecção de GDEs nas matrizes com maior variabilidade biológica dos efeitos aleatórios. Essa ferramenta também detectou novos GDEs nos dados de transcriptoma de pacientes com desordem de bipolaridade ao considerar o sexo dos pacientes como efeito aleatório. Em virtude dos aspectos abordados envolvendo a etapa de pré-processamento e a inferência de GDEs, a ferramenta DEGRE, proposta nesta dissertação, mostra-se promissora na identificação de possíveis GDEs em experimentos oriundos de desenhos experimentais mais complexos.