Imputation of missing data using gaussian linear Cluster-Weighted Modeling

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Luis Alejandro Masmela Caita
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Federal de Minas Gerais
Brasil
ICX - DEPARTAMENTO DE ESTATÍSTICA
Programa de Pós-Graduação em Estatística
UFMG
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/1843/38120
Resumo: Dados ausentes ocorrem quando alguns valores não são armazenados ou observados para variáveis de interesse. No entanto, a maior parte da teoria estatística assume que os dados são totalmente observados. Uma alternativa para lidar com bases de dados incompletas é preencher os espaços correspondentes às informações faltantes com base em alguns critérios, essa técnica é chamada de imputação. Apresentamos uma nova metodologia de imputação para bancos de dados com unidades de não resposta usando informações adicionais de variáveis auxiliares totalmente observadas. Assumimos que as variáveis não observadas são contínuas e que as variáveis auxiliares ajudam a melhorar a capacidade de imputação do modelo. Em uma estrutura totalmente Bayesiana, nosso método usa uma mistura flexível de distribuições normais multivariadas para modelar a resposta e as variáveis auxiliares em conjunto. Sob essa estrutura, usamos as propriedades da modelagem Gaussian Cluster-Weighted para construir um modelo preditivo para imputar os valores ausentes usando as informações das covariáveis. Estudos de simulação e uma ilustração de dados reais são apresentados para mostrar a capacidade de imputação do método sob uma variedade de cenários e em comparação com outros métodos da literatura.