Export Ready — 

Modelação do tempo até ao diagnóstico da tuberculose em Portugal

Bibliographic Details
Main Author: Castanheira, Ana Lúcia Viana
Publication Date: 2022
Format: Master thesis
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10451/53551
Summary: Trabalho de projeto de mestrado, Bioestatística, Universidade de Lisboa, Faculdade de Ciências, 2022
id RCAP_c41d8b451e5b9bf287e3071f65ab92e1
oai_identifier_str oai:repositorio.ulisboa.pt:10451/53551
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Modelação do tempo até ao diagnóstico da tuberculose em Portugalanálise de sobrevivênciadados omissosimputação múltiplatuberculoseTrabalhos de projeto de mestrado - 2022Departamento de Estatística e Investigação OperacionalTrabalho de projeto de mestrado, Bioestatística, Universidade de Lisboa, Faculdade de Ciências, 2022A tuberculose é uma doença infecciosa transmitida por via aérea através da inalação de gotículas, expelidas pela tosse, fala ou espirro. Esta doença é causada pela bactéria Mycobacterium tuberculosis (MTB) e afeta, por norma, os pulmões, embora possa também afetar outras partes do corpo. Na última década, o tempo decorrido entre o início dos sintomas e o diagnóstico de tuberculose tem vindo a aumentar, em Portugal. Um tempo longo até ao diagnóstico é um problema de saúde pública importante, uma vez que o contágio ocorre até a pessoa infetada começar o tratamento. Assim sendo, este trabalho tem como objetivo a identificação dos fatores que têm algum tipo de associação com o tempo até ao diagnóstico da doença. A presença de dados omissos, em registos não designados para investigação, é comum. No presente estudo, analisaram-se dados provenientes da base de dados do Sistema de Vigilância da Tuberculose (SVIG-TB) correspondente ao período entre 1 de janeiro de 2008 e 31 de dezembro de 2017. Os dados dizem respeito a indivíduos que foram diagnosticados com tuberculose pulmonar no período referido e contêm também informação acerca de características sociodemográficas e clínicas dos indivíduos em estudo. Ao executar uma análise preliminar aos dados, constatou-se que existiam valores omissos em múltiplas covariáveis, bem como na variável resposta, em percentagens entre 0,3% e 13,87%. Percebeu-se que com a quantidade de valores omissos presentes na base de dados aqui estudada, o melhor caminho não seria a simples eliminação dos indivíduos para os quais existiam estes valores. Escolher este caminho, com as percentagens de valores omissos existentes, poderia levar a estimativas enviesadas. De acordo com a literatura, a melhor solução para este problema seria recorrer a métodos de imputação, de forma a preservar o máximo de informação possível. Assim sendo, recorrendo à técnica de imputação múltipla através de equações encadeadas, foram obtidos dados com valores imputados. Nesta altura decidiu-se que seria bastante interessante explorar a comparação entre os resultados obtidos com a análise, tanto da base de dados com imputações como da base de dados completa, de forma a tentar perceber as consequências da análise de casos completos. De forma a identificar os fatores que têm influência no tempo até ao diagnóstico da doença, foram utilizados modelos de regressão, mais concretamente o modelo semiparamétrico de Cox e os modelos paramétricos Weibull e log-logístico. Os resultados demonstraram que ser seropositivo corresponde a um aumento entre 24% e 27,63% no risco de diagnóstico. Morar no Centro corresponde a um aumento no risco de diagnóstico entre 21,4% e 24,9%, comparativamente a morar em Lisboa e Vale do Tejo. Apesar da existência de concordância, para ambas as base de dados, de alguns resultados, observou-se também a presença de diferenças. Tome-se como exemplo a variável Sem_Abrigo. Os resultados obtidos através da análise da base de dados com valores imputados são que esta não tem uma influência significativa no tempo até ao diagnóstico, no entanto, para a base de dados completos, ser sem abrigo corresponde a um acréscimo entre 35,5% e 37,7% no tempo até ao diagnóstico. A existência deste tipo de discrepâncias vem a dar ênfase à importância da análise dos valores omissos, previamente a proceder a qualquer tipo de técnica. A simples eliminação dos valores omissos poderá ter consequências graves na veracidade dos resultados. Previamente a proceder a técnicas de imputação, quando esta opção é a indicada, dever-se-á procurar perceber o tipo presente de mecanismo de omissão de dados. Uma análise menos rigorosa deste tipo de dados poderá comprometer todo o estudo.Tuberculosis is an infectious disease transmitted through the air by inhaling droplets, expelled by coughing, speaking or sneezing. The disease is caused by the bacteria Mycobacterium tuberculosis (MTB) and usually affects the lungs, although it can also affect other parts of the body. In the last decade, the time elapsed between the onset of symptoms and the diagnosis of tuberculosis has been increasing in Portugal. A long time until diagnosis is an important public health problem, since contagion occurs until the infected person starts treatment. Therefore, this study aims to identify the factors that have some kind of association with the time to diagnosis of the disease. The presence of missing data, in records not designated for investigation, is common. In the present study, we analysed data from the Tuberculosis Surveillance System (SVIG-TB) database corresponding to the period between 1 January 2008 and 31 December 2017. The data concern individuals who were diagnosed with pulmonary tuberculosis in the mentioned period and also contain information about sociodemographic and clinical characteristics of the individuals under study. By performing a preliminary analysis of the data, it was found that there were missing values in multiple covariates, as well as in the response variable, in percentages between 0.3% and 13.87%. It was realized that with the amount of missing values present in the database studied here, the best path would not be the simple elimination of individuals for which these values existed. Choosing this path, with the existing percentages of missing values, could lead to biased estimates. According to the literature, the best solution to this problem would be to resort to imputation methods in order to preserve as much information as possible. Therefore, using the technique of multiple imputation through chained equations, data with imputed values were obtained. At this point it was decided that it would be quite interesting to explore the comparison between the results obtained with the analysis of both the database with imputations and the complete database, in order to try to understand the consequences of the complete case analysis. In order to identify the factors that influence the time until diagnosis of the disease, regression models were used, specifically the semiparametric Cox model and the parametric Weibull and log-logistic models. The results showed that being HIV positive corresponds to an increase between 24% and 27.63% in the risk of diagnosis. Living in the Centre corresponds to an increase in the risk of diagnosis of between 21.4% and 24.9%, compared to living in Lisbon and Tejo Valley. Despite the existence of agreement, for both databases, of some results, the presence of differences was also observed. Take for example the variable Homeless. The results obtained through the analysis of the database with imputed values are that this variable does not have a significant influence on time to diagnosis, however, for the complete database, being homeless corresponds to an increase between 35.5% and 37.7% in time to diagnosis. The existence of this type of discrepancy emphasises the importance of analysing the missing values prior to any type of technique. The simple elimination of missing values may have serious consequences on the accuracy of the results. Before using imputation techniques, when this option is indicated, one should try to understand the type of data omission mechanism. A less rigorous analysis of this type of data could compromise the entire study.Rocha, Cristina S., 1958-Soares, PatríciaRepositório da Universidade de LisboaCastanheira, Ana Lúcia Viana2022-06-29T16:42:53Z202220222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/53551TID:203217500porinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-03-17T14:47:12Zoai:repositorio.ulisboa.pt:10451/53551Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T03:24:30.613428Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Modelação do tempo até ao diagnóstico da tuberculose em Portugal
title Modelação do tempo até ao diagnóstico da tuberculose em Portugal
spellingShingle Modelação do tempo até ao diagnóstico da tuberculose em Portugal
Castanheira, Ana Lúcia Viana
análise de sobrevivência
dados omissos
imputação múltipla
tuberculose
Trabalhos de projeto de mestrado - 2022
Departamento de Estatística e Investigação Operacional
title_short Modelação do tempo até ao diagnóstico da tuberculose em Portugal
title_full Modelação do tempo até ao diagnóstico da tuberculose em Portugal
title_fullStr Modelação do tempo até ao diagnóstico da tuberculose em Portugal
title_full_unstemmed Modelação do tempo até ao diagnóstico da tuberculose em Portugal
title_sort Modelação do tempo até ao diagnóstico da tuberculose em Portugal
author Castanheira, Ana Lúcia Viana
author_facet Castanheira, Ana Lúcia Viana
author_role author
dc.contributor.none.fl_str_mv Rocha, Cristina S., 1958-
Soares, Patrícia
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Castanheira, Ana Lúcia Viana
dc.subject.por.fl_str_mv análise de sobrevivência
dados omissos
imputação múltipla
tuberculose
Trabalhos de projeto de mestrado - 2022
Departamento de Estatística e Investigação Operacional
topic análise de sobrevivência
dados omissos
imputação múltipla
tuberculose
Trabalhos de projeto de mestrado - 2022
Departamento de Estatística e Investigação Operacional
description Trabalho de projeto de mestrado, Bioestatística, Universidade de Lisboa, Faculdade de Ciências, 2022
publishDate 2022
dc.date.none.fl_str_mv 2022-06-29T16:42:53Z
2022
2022
2022-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/53551
TID:203217500
url http://hdl.handle.net/10451/53551
identifier_str_mv TID:203217500
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833601689355026432