Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
SILVA, Kássio Camelo Ferreira da |
Orientador(a): |
CARVALHO, Francisco de Assis Tenório de |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/34148
|
Resumo: |
Em diversas aplicações, conjuntos de dados podem ser agrupados de modo a formar intervalos, histogramas, distribuições e outras formas de representação de dados. Para esta categoria de dados, conhecida como Dados Simbólicos, apresenta-se a necessidade de técnicas estatísticas adaptadas da análise de dados clássicos. O modelo de Regressão Clusterwise tem como objetivo lidar com a heterogeneidade dos dados, isto é, a presença de subgrupos onde a relação entre os regressores e a variável resposta é diferente do resto da amostra. Este trabalho apresenta um modelo de Regressão Clusterwise Não Linear para o Centro e Amplitude para dados tipo-intervalo (Interval Center and Range Clusterwise Non-Linear Regression - iCRCNLR), baseado no algoritmo de agrupamento dinâmico (DIDAY; SIMON, 1980) e nos modelos de regressão linear e não-linear para dados tipo-intervalo (NETO; CARVALHO, 2008; NETO; CARVALHO, 2017). O método expande o caso linear de regressão clusterwise para, automaticamente, selecionar o melhor par de modelos (linear e/ou não linear) para centro e meia amplitude dos intervalos, baseado em um critério de otimização. Foram realizados estudos de simulação objetivando avaliar o desempenho do método para estimação e predição considerando 24 cenários, com diferentes estruturas de grupos para centro e amplitude dos intervalos. O estudo sobre estimação avaliou a precisão das estimativas dos parâmetros em um modelo dado, ajustados pelo algoritmo iCRCNLR. No que diz respeito à predição, um esquema de validação cruzada K-folds foi utilizado para avaliar a acurácia do iCRCNLR considerando a estimação para 1, 2 e 3 clusters. Três métodos foram comparados para alocar observações de teste a apenas um cluster: k-nearest neighbors (KNN) com distância de Hausdorff, Stacked Regressions e alocação aleatória. Por fim, foram feitas aplicações em seis conjuntos de dados reais para comparar a acurácia do iCRCNLR com a regressão clusterwise linear para dados tipo-intervalo, iCRCLR. Os resultados obtidos sugerem que o método iCRCNLR é adequado para uso tanto nos dados simulados quanto nos dados reais. |