Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos
| Main Author: | |
|---|---|
| Publication Date: | 2024 |
| Format: | Doctoral thesis |
| Language: | eng |
| Source: | Repositório Institucional da UFSCAR |
| Download full: | https://repositorio.ufscar.br/handle/20.500.14289/21170 |
Summary: | Non-homogeneous hidden Markov models are a statistical paradigm in which a sequence of non-observable states generates a sequence of observable. Transitions between the non-observable states are controlled by transition coefficients and covariates. Because variable selection has been hardly explored for this model, the central purpose of this thesis is to propose variable selection methods which improve predictive performance of the model. We propose two versions of the LASSO for the non-homogeneous hidden Markov model, the Global LASSO and Individual LASSO. The proposed methods are tested in a simulation study, to analyze their performance under controlled conditions. Evaluation metrics used are the mean squared prediction error, non-observable sequence prediction accuracy and coefficient shrinkage efficiency. Regarding the mean squared prediction error, the proposals consistently show better predictive performance than ARIMA and Penalized Linear Regression. They show very good performance when predicting the non-observable state sequence which generates the observable values. In terms of coefficient shrinkage efficiency, the proposals show excellent performance in all simulation scenarios when selecting variables via coefficient shrinkage. This gain in predictive performance as well as the ability to perform variable selection makes the proposed methods an interesting option to apply with the model. Finally, the methods are applied to characterize and predict the rainfall regime in the city of São Carlos, Brazil, displaying good performance when predicting rainfall quantities in the region as well as selecting relevant covariates for the model. |
| id |
SCAR_b348882dea40a19e165c0cc63c867fcc |
|---|---|
| oai_identifier_str |
oai:repositorio.ufscar.br:20.500.14289/21170 |
| network_acronym_str |
SCAR |
| network_name_str |
Repositório Institucional da UFSCAR |
| repository_id_str |
4322 |
| spelling |
Sabillón Lee, Gustavo AlexisZuanetti, Daianehttp://lattes.cnpq.br/8352484284929824https://lattes.cnpq.br/4713725426670655https://orcid.org/0000-0002-4802-2343https://orcid.org/0000-0003-1591-959X2025-01-06T12:32:10Z2025-01-06T12:32:10Z2024-10-29SABILLÓN LEE, Gustavo Alexis. Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos. 2024. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21170.https://repositorio.ufscar.br/handle/20.500.14289/21170Non-homogeneous hidden Markov models are a statistical paradigm in which a sequence of non-observable states generates a sequence of observable. Transitions between the non-observable states are controlled by transition coefficients and covariates. Because variable selection has been hardly explored for this model, the central purpose of this thesis is to propose variable selection methods which improve predictive performance of the model. We propose two versions of the LASSO for the non-homogeneous hidden Markov model, the Global LASSO and Individual LASSO. The proposed methods are tested in a simulation study, to analyze their performance under controlled conditions. Evaluation metrics used are the mean squared prediction error, non-observable sequence prediction accuracy and coefficient shrinkage efficiency. Regarding the mean squared prediction error, the proposals consistently show better predictive performance than ARIMA and Penalized Linear Regression. They show very good performance when predicting the non-observable state sequence which generates the observable values. In terms of coefficient shrinkage efficiency, the proposals show excellent performance in all simulation scenarios when selecting variables via coefficient shrinkage. This gain in predictive performance as well as the ability to perform variable selection makes the proposed methods an interesting option to apply with the model. Finally, the methods are applied to characterize and predict the rainfall regime in the city of São Carlos, Brazil, displaying good performance when predicting rainfall quantities in the region as well as selecting relevant covariates for the model.Modelos Markovianos ocultos não-homogêneos são um paradigma estatístico no qual uma sequência de estados não observáveis gera uma sequência de valores observáveis. Transições entre os estados não observáveis são controladas por coeficientes de transição e covariáveis. Contudo, estudos referentes a seleção de variáveis para este modelo têm sido pouco explorados. Devido a isto, o objetivo central desta tese é propor métodos de seleção de variáveis que melhorem o desempenho preditivo do modelo. Propomos duas versões do LASSO para o modelo Markoviano oculto não-homogêneo, o LASSO Global e LASSO Individual. Os métodos propostos são testados em um estudo de simulação para analisar seu desempenho sob condições controladas. As métricas de avaliação utilizadas são o erro quadrático médio preditivo, a precisão na predição da sequência não-observável e a eficiência do encolhimento dos coeficientes. Com relação ao erro quadrático médio preditivo, as propostas consistentemente mostram um desempenho preditivo melhor do que o ARIMA e a Regressão Linear Penalizada. Elas apresentam um desempenho muito bom na previsão da sequência de estados não observáveis que gera os valores observáveis. Em termos de eficiência do encolhimento dos coeficientes, as propostas mostram um desempenho excelente em todos os cenários de simulação, ao selecionar variáveis por meio do encolhimento dos coeficientes. Esse ganho no desempenho preditivo, bem como a capacidade de realizar a seleção de variáveis, torna os métodos propostos uma opção interessante para aplicação com o modelo. Finalmente, os métodos são aplicados para caracterizar e prever o regime de chuvas na cidade de São Carlos, Brasil, exibindo um bom desempenho na previsão das quantidades de chuva na região, bem como na seleção de covariáveis relevantes para o modelo.Não recebi financiamentoengUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessSeleção de variáveisLASSOModelo markoviano ocultoPrevisão de séries temporaisEM estocásticVariable selectionStochastic-EMHidden Markov modelsTime-series forecasting.CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAAlgoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneosVariable selection algorithms for non-homogeneous hidden Markov modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARTEXTTese - Gustavo Sabillon.pdf.txtTese - Gustavo Sabillon.pdf.txtExtracted texttext/plain101671https://repositorio.ufscar.br/bitstreams/cf0ee6cb-794a-4b22-975e-c45143c306d6/downloadb9e41629beaa08e9fa67e2d759546a2dMD53falseAnonymousREADTHUMBNAILTese - Gustavo Sabillon.pdf.jpgTese - Gustavo Sabillon.pdf.jpgGenerated Thumbnailimage/jpeg6405https://repositorio.ufscar.br/bitstreams/624479a4-e62a-4019-b75c-06f52390c248/downloade557483ef9ecb033eecd4263336a0238MD54falseAnonymousREADORIGINALTese - Gustavo Sabillon.pdfTese - Gustavo Sabillon.pdfTese de doutorado do aluno Gustavo Sabillónapplication/pdf1990853https://repositorio.ufscar.br/bitstreams/ddd23d4b-21ae-4977-b979-7f065ea256e0/download060aa07b38323bc3b0c0337165e50546MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstreams/eeb438ef-c4f9-404e-938e-aa84a51e4ddf/downloadf337d95da1fce0a22c77480e5e9a7aecMD52falseAnonymousREAD20.500.14289/211702025-02-06 04:32:36.447http://creativecommons.org/licenses/by-nc-nd/3.0/br/Attribution-NonCommercial-NoDerivs 3.0 Brazilopen.accessoai:repositorio.ufscar.br:20.500.14289/21170https://repositorio.ufscar.brRepositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestrepositorio.sibi@ufscar.bropendoar:43222025-02-06T07:32:36Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
| dc.title.por.fl_str_mv |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos |
| dc.title.alternative.eng.fl_str_mv |
Variable selection algorithms for non-homogeneous hidden Markov models |
| title |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos |
| spellingShingle |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos Sabillón Lee, Gustavo Alexis Seleção de variáveis LASSO Modelo markoviano oculto Previsão de séries temporais EM estocástic Variable selection Stochastic-EM Hidden Markov models Time-series forecasting. CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
| title_short |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos |
| title_full |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos |
| title_fullStr |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos |
| title_full_unstemmed |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos |
| title_sort |
Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos |
| author |
Sabillón Lee, Gustavo Alexis |
| author_facet |
Sabillón Lee, Gustavo Alexis |
| author_role |
author |
| dc.contributor.authorlattes.por.fl_str_mv |
https://lattes.cnpq.br/4713725426670655 |
| dc.contributor.authororcid.por.fl_str_mv |
https://orcid.org/0000-0002-4802-2343 |
| dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0003-1591-959X |
| dc.contributor.author.fl_str_mv |
Sabillón Lee, Gustavo Alexis |
| dc.contributor.advisor1.fl_str_mv |
Zuanetti, Daiane |
| dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8352484284929824 |
| contributor_str_mv |
Zuanetti, Daiane |
| dc.subject.por.fl_str_mv |
Seleção de variáveis LASSO Modelo markoviano oculto Previsão de séries temporais |
| topic |
Seleção de variáveis LASSO Modelo markoviano oculto Previsão de séries temporais EM estocástic Variable selection Stochastic-EM Hidden Markov models Time-series forecasting. CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
| dc.subject.eng.fl_str_mv |
EM estocástic Variable selection Stochastic-EM Hidden Markov models Time-series forecasting. |
| dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
| description |
Non-homogeneous hidden Markov models are a statistical paradigm in which a sequence of non-observable states generates a sequence of observable. Transitions between the non-observable states are controlled by transition coefficients and covariates. Because variable selection has been hardly explored for this model, the central purpose of this thesis is to propose variable selection methods which improve predictive performance of the model. We propose two versions of the LASSO for the non-homogeneous hidden Markov model, the Global LASSO and Individual LASSO. The proposed methods are tested in a simulation study, to analyze their performance under controlled conditions. Evaluation metrics used are the mean squared prediction error, non-observable sequence prediction accuracy and coefficient shrinkage efficiency. Regarding the mean squared prediction error, the proposals consistently show better predictive performance than ARIMA and Penalized Linear Regression. They show very good performance when predicting the non-observable state sequence which generates the observable values. In terms of coefficient shrinkage efficiency, the proposals show excellent performance in all simulation scenarios when selecting variables via coefficient shrinkage. This gain in predictive performance as well as the ability to perform variable selection makes the proposed methods an interesting option to apply with the model. Finally, the methods are applied to characterize and predict the rainfall regime in the city of São Carlos, Brazil, displaying good performance when predicting rainfall quantities in the region as well as selecting relevant covariates for the model. |
| publishDate |
2024 |
| dc.date.issued.fl_str_mv |
2024-10-29 |
| dc.date.accessioned.fl_str_mv |
2025-01-06T12:32:10Z |
| dc.date.available.fl_str_mv |
2025-01-06T12:32:10Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
| format |
doctoralThesis |
| status_str |
publishedVersion |
| dc.identifier.citation.fl_str_mv |
SABILLÓN LEE, Gustavo Alexis. Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos. 2024. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21170. |
| dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/20.500.14289/21170 |
| identifier_str_mv |
SABILLÓN LEE, Gustavo Alexis. Algoritmos para seleção de variáveis em modelos Markovianos ocultos não-homogêneos. 2024. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21170. |
| url |
https://repositorio.ufscar.br/handle/20.500.14289/21170 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
| eu_rights_str_mv |
openAccess |
| dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
| dc.publisher.initials.fl_str_mv |
UFSCar |
| publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
| instname_str |
Universidade Federal de São Carlos (UFSCAR) |
| instacron_str |
UFSCAR |
| institution |
UFSCAR |
| reponame_str |
Repositório Institucional da UFSCAR |
| collection |
Repositório Institucional da UFSCAR |
| bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstreams/cf0ee6cb-794a-4b22-975e-c45143c306d6/download https://repositorio.ufscar.br/bitstreams/624479a4-e62a-4019-b75c-06f52390c248/download https://repositorio.ufscar.br/bitstreams/ddd23d4b-21ae-4977-b979-7f065ea256e0/download https://repositorio.ufscar.br/bitstreams/eeb438ef-c4f9-404e-938e-aa84a51e4ddf/download |
| bitstream.checksum.fl_str_mv |
b9e41629beaa08e9fa67e2d759546a2d e557483ef9ecb033eecd4263336a0238 060aa07b38323bc3b0c0337165e50546 f337d95da1fce0a22c77480e5e9a7aec |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
| repository.mail.fl_str_mv |
repositorio.sibi@ufscar.br |
| _version_ |
1834468915037601792 |