Segmentação e especialização de modelos de machine learning para a predição de mortalidade neonatal

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Cristofalo, Renan Martello
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/6/6143/tde-04022025-182958/
Resumo: O crescente volume de dados gerados na área da saúde oferece oportunidades sem precedentes para melhorar a qualidade dos cuidados por meio da análise adequada dessas informações. Algoritmos de machine learning surgem como uma ferramenta poderosa, capaz de extrair padrões complexos nos dados, e com isso auxiliar na tomada de decisões clínicas, na personalização de tratamentos e na detecção precoce de doenças. Este estudo teve como objetivo desenvolver e avaliar modelos de machine learning para a predição de mortalidade neonatal, com um foco em explorar e testar diferentes estratégias de segmentação e especialização dos modelos, utilizando dados coletados pelo Maternal Newborn Health Registry (MNHR), abrangendo diversos países em desenvolvimento. Entre os 692 modelos avaliados, o LGBMClassifier destacou-se, apresentando a melhor performance global com uma ROC AUC de 0,8609, evidenciando sua alta capacidade de discriminação entre casos de mortalidade e sobrevivência neonatal. Embora o modelo global tenha demonstrado superioridade, a segmentação dos dados por variáveis contextuais, como local de parto e via de parto, mostrou-se promissora para a especialização dos modelos, resultando em melhorias de desempenho em contextos específicos. No entanto, a eficácia dessas estratégias depende da quantidade de dados disponíveis em cada segmento, como ficou evidenciado pela segmentação por localização geográfica que não apresentou os ganhos esperados devido à variação significativa na composição dos dados entre as bases de treino e teste, apontando para a necessidade de um volume adequado de amostras para treinar os modelos segmentados de forma eficaz. A segmentação por variáveis tradicionalmente consideradas importantes, como peso ao nascer, não trouxe os ganhos esperados nos modelos especializados, principalmente devido à baixa presença de casos extremos nas bases de dados. A análise de explicabilidade utilizando valores de Shapley revelou que variáveis como contato pele a pele e peso ao nascer foram consistentemente identificadas como os principais preditores, influenciando diretamente as decisões do modelo. Assim, este estudo destaca a importância de um equilíbrio entre a robustez dos modelos globais e a especialização proporcionada pela segmentação, sugerindo que a escolha da estratégia ideal depende do contexto e da disponibilidade de dados.