Agrupamento baseado em modelos de mistura de gaussianas com covariáveis

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Relvas, Carlos Eduardo Martins
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
BIC
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16012021-193220/
Resumo: Frequentemente, o processo de agrupamento é a primeira etapa em diversos projetos de análises de dados. Ele permite identicar padrões que não foram notados antes, sendo muito útil para detectar novas hipóteses. No entanto, um desao na análise de dados empíricos é a presença de covariáveis, que podem mascarar a estrutura de agrupamento obtida. Por exemplo: se estamos interessados em agrupar um conjunto de indivíduos em um grupo de controle e pacientes com câncer. Neste caso, o algoritmo de agrupamento poderia agrupar as observações apenas em jovens e velhos. Isso pode acontecer pois a idade do diagnóstico é associada ao câncer. Com isso em mente, desenvolvemos o CEM-Co, um algoritmo baseado em modelos, que remove/minimiza os efeitos das covariáveis durante o processo de agrupamento. Aplicamos o CEM-Co a uma base de dados de expressão gênica, composta de 129 pacientes de câncer de pulmão do estágio I. Como resultado, foi possível identicar um subgrupo de pacientes com taxa de sobrevida estatisticamente menor, algo até então não encontrado.