Detalhes bibliográficos
Ano de defesa: |
2022 |
Autor(a) principal: |
Azevedo, Karolayne Santos de |
Orientador(a): |
Fernandes, Marcelo Augusto Costa |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal do Rio Grande do Norte
|
Programa de Pós-Graduação: |
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufrn.br/handle/123456789/50820
|
Resumo: |
Pertencente à família de vírus Coronaviridae, o SARS-CoV-2 (Severe Acute Respiratory Syndrome Coronavirus 2), é um vírus envelopado de RNA e fita simples de sentido positivo que contém quase 30.000 pares de base (base-pair - bp). Vírus de RNA tendem a sofrer mais modificações do que os vírus de DNA. Assim, quando um vírus está circulando amplamente numa população e ocasionando muitas infecções, a probabilidade de seu genoma sofrer modificações aumenta, podendo afetar negativamente algumas de suas propriedades, tornando-se mais transmissíveis e/ou ainda mais letais. Dentro desse contexto, este trabalho propõe uma ferramenta, baseada em aprendizado de máquina, na qual faz uso de uma rede neural convolucional (Convolutional Neural Network - CNN) profunda de uma dimensão (1D), destinada à classificação. Como entrada, foram utilizadas amostras genômicas completas de DNAc (DNA complementar), cujo tamanho varia entre 26.342 e 31.029 bp de comprimento. Ao contrário da maioria das abordagens apresentadas na literatura, os resultados obtidos por esta ferramenta, que envolve a classificação do vírus, da mesma família, revelam valores altos para as métricas de desempenho, mostrando-se mais confiáveis se comparados com os trabalhos discutidos no estado da arte. Posteriormente a arquitetura foi utilizada para verificar o comportamento e evolução das sequências genômicas das principais variantes de preocupação (alpha, beta, gamma e delta) tendo em vista sua alta sensibilidade, por meio de valores de acurácia, obtidos por meio da classificação binárias dessas variantes. Para este experimento, foram utilizadas amostras genômicas do GISAID (Global Initiative on Sharing All Influenza Data - GISAID) que hospeda, também, dados epidemiológicos e clínicos referentes ao SARSCoV-2. Os testes de Anderson-Darling, Jarque-Bera e Kruskal-Wallis foram realizados a partir dos scores de alinhamento global, de cada variante a fim de obter parâmetros estatíticos. Os resultados dos testes apontam que as sequências genômicas não possuem distribuição normal para a maioria dos experimentos, indicando diferenças estatísticas e comportamentais dessas variantes com o passar do tempo. Essas análises vão de encontro com os resultados obtidos com a arquitetura deste trabalho, sinalizando a possibilidade do uso do modelo, não somente para a classificação víral, como também no acompanhamento do comportamento das variantes do SARS-CoV-2 ao longo do tempo devido à alta sensibilidade da rede. |