Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Oliveira, João Paulo Scoralick de lattes
Orientador(a): Goliatt, Priscila Vanessa Zabala Capriles lattes
Banca de defesa: Bernardino, Heder Soares lattes, Colugnati, Fernando Antonio Basile, Augusto, Douglas Adriano lattes, Silva, Eduardo Krempser da
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação: Programa de Pós-graduação em Modelagem Computacional
Departamento: ICE – Instituto de Ciências Exatas
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufjf.br/jspui/handle/ufjf/17794
Resumo: A doença renal crônica (DRC) é um grave problema de saúde pública tanto no Brasil quanto no mundo. Caracterizada pela perda progressiva e irreversível da função renal, a DRC apresenta uma prevalência média projetada de 9,5% na população adulta mundial. No Brasil, milhões de indivíduos possuem o diagnóstico da doença, tendo esse número atingido um total estimado de 17 milhões em 2017. Intervenções precoces podem retardar sua progressão e reduzir a necessidade de terapias renais substitutivas. A antecipação da detecção da DRC, em cada um de seus seis estágios de gravidade, é essencial para o adequado manejo clínico dos pacientes, representando o método mais eficaz para a redução dos custos associados ao tratamento. O objetivo desta tese foi desenvolver cenários de aplicação de algoritmos e técnicas de aprendizado de máquina (AM) para a predição dos estágios da DRC, utilizando uma base de dados de saúde pública do Brasil, composta por mais de sete mil registros que incluem informações pessoais, socioeconômicas, clínicas e laboratoriais dos pacientes. A proposta foi explorar diferentes combinações de variáveis preditoras que pudessem servir de base para a aplicação de métodos de AM capazes de predizer a progressão da doença, reduzindo a dependência de marcadores tradicionais, como a creatinina sérica, amplamente utilizada nos trabalhos da literatura relacionada. A partir dessas combinações de variáveis relacionadas a exames clínicos e dados pessoais, esta tese também teve como objetivo identificar o menor conjunto viável de variáveis preditoras dos seis estágios da DRC. Para o desenvolvimento dos cenários, foram exploradas três diferentes configurações da base de dados, com o objetivo de extrair distintas perspectivas sobre a representação do conteúdo. Métodos variados foram aplicados para a inferência de dados faltantes, juntamente com técnicas voltadas ao balanceamento dos dados, seleção de variáveis relevantes e divisão dos dados para fins de classificação. Adicionalmente, uma série de algoritmos supervisionados de AM, com diferentes fundamentações e objetivos, foram empregados para permitir uma análise comparativa dos resultados. Em cada cenário proposto, os resultados obtidos variaram. No primeiro, com classificações realizadas pelo algoritmo de floresta aleatória (RF, do inglês random forest), todas as abordagens apresentaram valores elevados de acurácia, exceto o agrupamento que não incluiu a creatinina sérica como variável preditora. No segundo cenário, composto por 25 variáveis e sem a inclusão da creatinina, o algoritmo extreme gradient boosting (XGBoost) apresentou alta acurácia, comparável aos valores reportados na literatura, em estudos que fazem uso da creatinina em suas análises. No terceiro cenário, o desbalanceamento da base de dados foi tratado com diferentes métodos e a classificação considerou apenas três variáveis preditoras. Embora os resultados gerais tenham ficado aquém do esperado, alguns se revelaram promissores para a detecção dos estágios iniciais da DRC. No quarto cenário, a inferência de dados faltantes foi abordada por meio do conceito de cópulas, mas os resultados foram insatisfatórios. Por fim, o quinto cenário foi o mais completo em termos de organização, tratamento, seleção e classificação dos dados. Entretanto, as novas abordagens não resultaram em melhorias significativas nos resultados. Em conclusão, uma parte dos cenários desenvolvidos foi bem sucedida em corresponder aos objetivos delineados nesta tese, sobretudo por não prescindir do uso de marcadores tradicionais da doença. Os resultados promissores possivelmente poderiam ser avaliados para o uso na prática clínica diária e no auxílio ao diagnóstico precoce da doença renal crônica.