Variabilidade e aderência em modelos de aprendizado de máquina com distribuição beta
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Pernambuco
UFPE Brasil Programa de Pos Graduacao em Estatistica |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufpe.br/handle/123456789/44275 |
Resumo: | Proposto por Ferrari e Cribari-Neto (2004), o modelo de regressão beta tem sido objeto de estudo de diversos autores devido a sua relevância para a modelagem de fenômenos cuja variável resposta esteja definida no intervalo unitário (0,1). No tocante ao diagnóstico dos modelos de regressão beta, Espinheira et al. (2008) apresentaram a definição de resíduos baseados no processo iterativo Scoring de Fisher, sendo esta amplamente utilizada para a generalização e proposição de novos resíduos para as extensões dos modelos de regressão beta. Com o foco na distribuição de probabilidade e observando que a mesma forma uma família exponencial bidimensional, utilizamos o Teorema da Função Integrável - demonstrado por Barndorff-Nielsen (1978) e Lehmann (1986) - para propor uma nova classe de resíduos e critérios do tipo pseudo-R2 baseados nas estatísticas suficientes e completas com a finalidade de avaliar a variabilidade e aderência, além de realizar diagnósticos em modelos de aprendizado de máquina (machine learning) com distribuição beta. Além disso, para o modelo de regressão beta, propomos um novo resíduo baseado no processo iterativo Scoring de Fisher. Quanto à qualidade preditiva, utilizamos a estatística PRESS e o coeficiente de predição P2, introduzido por Espinheira et al. (2019) para a classe de modelos de regressão beta lineares e não-lineares. O desempenho das propostas é avaliado por meio de três aplicações, associadas a um conjunto de dados reais, relativas ao estudo do risco à doenças cardíacas. |