Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Lauris, Renato Pedroso
Orientador(a): Horta, Eduardo de Oliveira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/276732
Resumo: A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).