Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos

Bibliographic Details
Main Author: Sabillón Lee, Gustavo Alexis
Publication Date: 2024
Format: Doctoral thesis
Language: eng
Source: Repositório Institucional da UFSCAR
Download full: https://repositorio.ufscar.br/handle/20.500.14289/21170
Summary: Non-homogeneous hidden Markov models are a statistical paradigm in which a sequence of non-observable states generates a sequence of observable. Transitions between the non-observable states are controlled by transition coefficients and covariates. Because variable selection has been hardly explored for this model, the central purpose of this thesis is to propose variable selection methods which improve predictive performance of the model. We propose two versions of the LASSO for the non-homogeneous hidden Markov model, the Global LASSO and Individual LASSO. The proposed methods are tested in a simulation study, to analyze their performance under controlled conditions. Evaluation metrics used are the mean squared prediction error, non-observable sequence prediction accuracy and coefficient shrinkage efficiency. Regarding the mean squared prediction error, the proposals consistently show better predictive performance than ARIMA and Penalized Linear Regression. They show very good performance when predicting the non-observable state sequence which generates the observable values. In terms of coefficient shrinkage efficiency, the proposals show excellent performance in all simulation scenarios when selecting variables via coefficient shrinkage. This gain in predictive performance as well as the ability to perform variable selection makes the proposed methods an interesting option to apply with the model. Finally, the methods are applied to characterize and predict the rainfall regime in the city of São Carlos, Brazil, displaying good performance when predicting rainfall quantities in the region as well as selecting relevant covariates for the model.
id SCAR_b348882dea40a19e165c0cc63c867fcc
oai_identifier_str oai:repositorio.ufscar.br:20.500.14289/21170
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Sabillón Lee, Gustavo AlexisZuanetti, Daianehttp://lattes.cnpq.br/8352484284929824https://lattes.cnpq.br/4713725426670655https://orcid.org/0000-0002-4802-2343https://orcid.org/0000-0003-1591-959X2025-01-06T12:32:10Z2025-01-06T12:32:10Z2024-10-29SABILLÓN LEE, Gustavo Alexis. Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos. 2024. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21170.https://repositorio.ufscar.br/handle/20.500.14289/21170Non-homogeneous hidden Markov models are a statistical paradigm in which a sequence of non-observable states generates a sequence of observable. Transitions between the non-observable states are controlled by transition coefficients and covariates. Because variable selection has been hardly explored for this model, the central purpose of this thesis is to propose variable selection methods which improve predictive performance of the model. We propose two versions of the LASSO for the non-homogeneous hidden Markov model, the Global LASSO and Individual LASSO. The proposed methods are tested in a simulation study, to analyze their performance under controlled conditions. Evaluation metrics used are the mean squared prediction error, non-observable sequence prediction accuracy and coefficient shrinkage efficiency. Regarding the mean squared prediction error, the proposals consistently show better predictive performance than ARIMA and Penalized Linear Regression. They show very good performance when predicting the non-observable state sequence which generates the observable values. In terms of coefficient shrinkage efficiency, the proposals show excellent performance in all simulation scenarios when selecting variables via coefficient shrinkage. This gain in predictive performance as well as the ability to perform variable selection makes the proposed methods an interesting option to apply with the model. Finally, the methods are applied to characterize and predict the rainfall regime in the city of São Carlos, Brazil, displaying good performance when predicting rainfall quantities in the region as well as selecting relevant covariates for the model.Modelos Markovianos ocultos não-homogêneos são um paradigma estatístico no qual uma sequência de estados não observáveis gera uma sequência de valores observáveis. Transições entre os estados não observáveis são controladas por coeficientes de transição e covariáveis. Contudo, estudos referentes a seleção de variáveis para este modelo têm sido pouco explorados. Devido a isto, o objetivo central desta tese é propor métodos de seleção de variáveis que melhorem o desempenho preditivo do modelo. Propomos duas versões do LASSO para o modelo Markoviano oculto não-homogêneo, o LASSO Global e LASSO Individual. Os métodos propostos são testados em um estudo de simulação para analisar seu desempenho sob condições controladas. As métricas de avaliação utilizadas são o erro quadrático médio preditivo, a precisão na predição da sequência não-observável e a eficiência do encolhimento dos coeficientes. Com relação ao erro quadrático médio preditivo, as propostas consistentemente mostram um desempenho preditivo melhor do que o ARIMA e a Regressão Linear Penalizada. Elas apresentam um desempenho muito bom na previsão da sequência de estados não observáveis que gera os valores observáveis. Em termos de eficiência do encolhimento dos coeficientes, as propostas mostram um desempenho excelente em todos os cenários de simulação, ao selecionar variáveis por meio do encolhimento dos coeficientes. Esse ganho no desempenho preditivo, bem como a capacidade de realizar a seleção de variáveis, torna os métodos propostos uma opção interessante para aplicação com o modelo. Finalmente, os métodos são aplicados para caracterizar e prever o regime de chuvas na cidade de São Carlos, Brasil, exibindo um bom desempenho na previsão das quantidades de chuva na região, bem como na seleção de covariáveis relevantes para o modelo.Não recebi financiamentoengUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSeleção de variáveisLASSOModelo markoviano ocultoPrevisão de séries temporaisEM estocásticVariable selectionStochastic-EMHidden Markov modelsTime-series forecasting.CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAAlgoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneosVariable selection algorithms for non-homogeneous hidden Markov modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTTese - Gustavo Sabillon.pdf.txtTese - Gustavo Sabillon.pdf.txtExtracted texttext/plain101671https://repositorio.ufscar.br/bitstreams/cf0ee6cb-794a-4b22-975e-c45143c306d6/downloadb9e41629beaa08e9fa67e2d759546a2dMD53falseAnonymousREADTHUMBNAILTese - Gustavo Sabillon.pdf.jpgTese - Gustavo Sabillon.pdf.jpgGenerated Thumbnailimage/jpeg6405https://repositorio.ufscar.br/bitstreams/624479a4-e62a-4019-b75c-06f52390c248/downloade557483ef9ecb033eecd4263336a0238MD54falseAnonymousREADORIGINALTese - Gustavo Sabillon.pdfTese - Gustavo Sabillon.pdfTese de doutorado do aluno Gustavo Sabillónapplication/pdf1990853https://repositorio.ufscar.br/bitstreams/ddd23d4b-21ae-4977-b979-7f065ea256e0/download060aa07b38323bc3b0c0337165e50546MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/eeb438ef-c4f9-404e-938e-aa84a51e4ddf/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/211702025-02-06 04:32:36.447http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21170https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T07:32:36Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
dc.title.alternative.eng.fl_str_mv Variable selection algorithms for non-homogeneous hidden Markov models
title Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
spellingShingle Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
Sabillón Lee, Gustavo Alexis
Seleção de variáveis
LASSO
Modelo markoviano oculto
Previsão de séries temporais
EM estocástic
Variable selection
Stochastic-EM
Hidden Markov models
Time-series forecasting.
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
title_short Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
title_full Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
title_fullStr Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
title_full_unstemmed Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
title_sort Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
author Sabillón Lee, Gustavo Alexis
author_facet Sabillón Lee, Gustavo Alexis
author_role author
dc.contributor.authorlattes.por.fl_str_mv https://lattes.cnpq.br/4713725426670655
dc.contributor.authororcid.por.fl_str_mv https://orcid.org/0000-0002-4802-2343
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0003-1591-959X
dc.contributor.author.fl_str_mv Sabillón Lee, Gustavo Alexis
dc.contributor.advisor1.fl_str_mv Zuanetti, Daiane
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8352484284929824
contributor_str_mv Zuanetti, Daiane
dc.subject.por.fl_str_mv Seleção de variáveis
LASSO
Modelo markoviano oculto
Previsão de séries temporais
topic Seleção de variáveis
LASSO
Modelo markoviano oculto
Previsão de séries temporais
EM estocástic
Variable selection
Stochastic-EM
Hidden Markov models
Time-series forecasting.
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.eng.fl_str_mv EM estocástic
Variable selection
Stochastic-EM
Hidden Markov models
Time-series forecasting.
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
description Non-homogeneous hidden Markov models are a statistical paradigm in which a sequence of non-observable states generates a sequence of observable. Transitions between the non-observable states are controlled by transition coefficients and covariates. Because variable selection has been hardly explored for this model, the central purpose of this thesis is to propose variable selection methods which improve predictive performance of the model. We propose two versions of the LASSO for the non-homogeneous hidden Markov model, the Global LASSO and Individual LASSO. The proposed methods are tested in a simulation study, to analyze their performance under controlled conditions. Evaluation metrics used are the mean squared prediction error, non-observable sequence prediction accuracy and coefficient shrinkage efficiency. Regarding the mean squared prediction error, the proposals consistently show better predictive performance than ARIMA and Penalized Linear Regression. They show very good performance when predicting the non-observable state sequence which generates the observable values. In terms of coefficient shrinkage efficiency, the proposals show excellent performance in all simulation scenarios when selecting variables via coefficient shrinkage. This gain in predictive performance as well as the ability to perform variable selection makes the proposed methods an interesting option to apply with the model. Finally, the methods are applied to characterize and predict the rainfall regime in the city of São Carlos, Brazil, displaying good performance when predicting rainfall quantities in the region as well as selecting relevant covariates for the model.
publishDate 2024
dc.date.issued.fl_str_mv 2024-10-29
dc.date.accessioned.fl_str_mv 2025-01-06T12:32:10Z
dc.date.available.fl_str_mv 2025-01-06T12:32:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SABILLÓN LEE, Gustavo Alexis. Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos. 2024. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21170.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/20.500.14289/21170
identifier_str_mv SABILLÓN LEE, Gustavo Alexis. Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos. 2024. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21170.
url https://repositorio.ufscar.br/handle/20.500.14289/21170
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstreams/cf0ee6cb-794a-4b22-975e-c45143c306d6/download
https://repositorio.ufscar.br/bitstreams/624479a4-e62a-4019-b75c-06f52390c248/download
https://repositorio.ufscar.br/bitstreams/ddd23d4b-21ae-4977-b979-7f065ea256e0/download
https://repositorio.ufscar.br/bitstreams/eeb438ef-c4f9-404e-938e-aa84a51e4ddf/download
bitstream.checksum.fl_str_mv b9e41629beaa08e9fa67e2d759546a2d
e557483ef9ecb033eecd4263336a0238
060aa07b38323bc3b0c0337165e50546
f337d95da1fce0a22c77480e5e9a7aec
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv repositorio.sibi@ufscar.br
_version_ 1834468915037601792