Inferência de redes de regulação gênica a partir de séries temporais via meta-heurísticas

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Silva, José Eduardo Henriques da lattes
Orientador(a): Bernardino, Heder Soares lattes
Banca de defesa: Goliatt, Priscila Vanessa Zabala Capriles lattes, Vieira, Alex Borges lattes, Augusto, Douglas Adriano lattes, Goldschmidt, Ronaldo Ribeiro lattes
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação: Programa de Pós-graduação em Modelagem Computacional
Departamento: ICE – Instituto de Ciências Exatas
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufjf.br/jspui/handle/ufjf/16915
Resumo: A inferência de redes de regulação gênica (GRNs - do inglês Gene Regulatory Networks) é um problema difícil e importante, com desafios amplamente endereçados na área denominada Biologia Sistêmica. Suas aplicações incluem biotecnologia e saúde, auxiliando no desenvolvimento de fármacos, uma vez que a compreensão de padrões nas interações gênicas pode levar a descobertas importantes relacionadas a doenças nos organismos. O sequencimento de RNA de célula única (scRNA-Seq - do inglês single-cell RNA Sequencing) proveu uma resolução sem precedentes para o campo da transcriptômica. Experimentos que utilizam scRNA-Seq são atrativos para a inferência de GRNs devido à geração de milhares de medidas independentes e à possibilidade de se obter uma visão pseudotemporal mais precisa da dinâmica da expressão gênica. Entretanto, nem todos os genes são expressos o tempo todo. A seleção de conjuntos de genes que modelam o fenômeno biológico desejado também constitui um desafio para a inferência de GRNs. As redes Booleanas e as modeladas por meio de sistemas de equações diferenciais ordinárias (EDOs) são comumente utilizadas para representar as GRNs. Contudo, não existe método padrão para discretização dos dados que são fornecidos às redes Booleanas. Redes Booleanas podem ser modeladas na forma de circuitos digitais. Dentre as técnicas de computação evolucionista, Programação Genética Cartesiana (CGP - do inglês Cartesian Genetic Programming) é apontada como a técnica mais eficiente para a evolução e otimização de circuitos lógicos combinacionais. Entretanto, técnicas de computação evolucionista não aparecem dentre os algoritmos destacados como estado da arte para a reconstrução de GRNs, motivado principalmente por problemas de escalabilidade. Além disso, o desconhecimento das redes ground-truth e não padronização da forma de atribuir qualidade à uma rede inferida aumentam o desafio ao resolver o problema. Neste trabalho propõese um framework que utiliza CGP para a inferência de GRNs Booleanas e a obtenção de um modelo contínuo a partir de dados na forma de séries temporais. Cada etapa do framework proposto é explorada, abrangendo (i) o pré-processamento dos dados de expressão gênica, (ii) a seleção de subconjuntos de genes via técnicas de agrupamento como forma de direcionar o processo de busca, (iii) as maneiras pelas quais os dados devem ser discretizados a fim de se obter um modelo Booleano, (iv) o comportamento dos operadores de variação genética na CGP, (v) a forma pela qual um modelo Booleano pode ser convertido em um sistema de EDOs e (vi) a determinação dos coeficientes numéricos deste sistema de EDOs via Estratégias Evolutivas. Propõe-se, também, um novo procedimento para discretização de dados de expressão gênica na forma de séries temporais. Por fim, uma revisão do processo metodológico adotado no contexto de inferência de redes de regulação gênica a partir de dados scRNA-Seq, abrangendo as características intrínsecas à tecnologia de sequenciamento, a seleção de genes de interesse, os motifs de rede, as redes de referência e as métricas e forma de avaliar as redes inferidas é apresentada. Como resultado, propõe-se um novo processo metodológico. Todas as propostas são avaliadas em problemas benchmark, que consideram dados sintéticos e reais obtidos por meio de microarrays e scRNA-Seq, dados oriundos de simulação estocástica, além de dados de organismos amplamente conhecidos e explorados na literatura, como Saccharomyces cerevisiae e Escherichia coli, e dados da competição DREAM4. Os resultados mostram que as propostas são superiores ou competitivas com os métodos estado da arte para a inferência de GRNs e fornecem uma solução interpretável que pode auxiliar os especialistas do domínio no campo de Biologia Sistêmica. Além disso, o processo metodológico proposto torna mais justa a comparação de diferentes algoritmos de inferência de GRNs.