Variabilidade e aderência em modelos de aprendizado de máquina com distribuição beta

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: CAVALCANTE, Jaime Phasquinel Lopes
Orientador(a): OSPINA, Patrícia Leone Espinheira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Estatistica
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/44275
Resumo: Proposto por Ferrari e Cribari-Neto (2004), o modelo de regressão beta tem sido objeto de estudo de diversos autores devido a sua relevância para a modelagem de fenômenos cuja variável resposta esteja definida no intervalo unitário (0,1). No tocante ao diagnóstico dos modelos de regressão beta, Espinheira et al. (2008) apresentaram a definição de resíduos baseados no processo iterativo Scoring de Fisher, sendo esta amplamente utilizada para a generalização e proposição de novos resíduos para as extensões dos modelos de regressão beta. Com o foco na distribuição de probabilidade e observando que a mesma forma uma família exponencial bidimensional, utilizamos o Teorema da Função Integrável - demonstrado por Barndorff-Nielsen (1978) e Lehmann (1986) - para propor uma nova classe de resíduos e critérios do tipo pseudo-R2 baseados nas estatísticas suficientes e completas com a finalidade de avaliar a variabilidade e aderência, além de realizar diagnósticos em modelos de aprendizado de máquina (machine learning) com distribuição beta. Além disso, para o modelo de regressão beta, propomos um novo resíduo baseado no processo iterativo Scoring de Fisher. Quanto à qualidade preditiva, utilizamos a estatística PRESS e o coeficiente de predição P2, introduzido por Espinheira et al. (2019) para a classe de modelos de regressão beta lineares e não-lineares. O desempenho das propostas é avaliado por meio de três aplicações, associadas a um conjunto de dados reais, relativas ao estudo do risco à doenças cardíacas.