Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Gomes, Tiago Minuzzi Freire da Fontoura |
Orientador(a): |
Loreto, Élgion Lúcio da Silva |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/276145
|
Resumo: |
Os elementos transponíveis (TEs) são sequências de DNA capazes de se transporem dentro de um genoma hospedeiro e desempenham vários papéis na regulação dos genes, no envelhecimento, no desenvolvimento de certos tipos de câncer, na especiação e no desenvolvimento do sistema imunológico, entre outros. A identificação e classificação dos TEs nos genomas constituem um desafio devido à sua natureza repetitiva e diversificada. Embora se aplique várias técnicas para a anotação de TEs, o ressurgimento de deep learning (DL) trouxe novas possibilidades dentro das ciências ômicas com esta finalidade. As redes neurais convolucionais (CNN) têm sido aplicadas com sucesso em vários domínios, incluindo a classificação de imagens, o processamento de linguagem natural e na genômica. No entanto, faltam ferramentas baseadas em DL que possam efetuar a identificação e classificação de TEs de ponta a ponta. Nesta tese, apresentamos o HamleTE, uma ferramenta baseada em DL que utiliza um workflow para anotar e classificar TEs em genomas. HamleTE oferece os modos de anotação e classificação, proporcionando flexibilidade para diferentes casos de uso. A ferramenta emprega CNNs para extração de características, seguida por camadas totalmente conectadas para aprender as associações entre dados e rótulos para categorização precisa. Ao contrário das ferramentas existentes, HamleTE integra etapas de extração de sequências repetitivas e de remoção de redundância, assegurando uma anotação TE robusta. Para avaliar o desempenho do HamleTE, comparamo-lo com outros programas de classificação de TE. Os resultados demonstraram que, em relação aos outros programas, HamleTE alcançou um desempenho comparável ou superior em termos de identificação correta de TEs, precisão, especificidade, acurácia, sensibilidade e F1-score. Além disso, o modo de anotação do HamleTE gerou bibliotecas de TEs emprega um workflow hierárquico com vários modelos de classificação. Esta abordagem reduz a complexidade e a variação em cada etapa, atenuando as dificuldades associadas à aprendizagem e à categorização. Além disso, o HamleTE utiliza embedding vectors para representar sequências de DNA, capturando as relações contextuais e a semântica da informação genética. Esta abordagem melhora a capacidade do modelo para extrair características e aumenta a precisão da classificação. Em conclusão, HamleTE preenche a lacuna nas ferramentas de anotação e classificação de TE baseadas em DL. Ele fornece um workflow abrangente e eficiente para a análise de TEs, fornecendo resultados precisos e possibilitando opções de refinamento dos resultados. Ao tirar partido do poder da DL, HamleTE permite aos pesquisadores explorar a paisagem repetitiva e diversificada dos TEs nos genomas eucarióticos, facilitando uma exploração dos seus papéis funcionais e evolutivos. |