Un modelo de imputación múltiple basado en el análisis de componentes principales probabilístico para variables numéricas

dc.contributor.advisorPacheco López, Mario José
dc.contributor.authorTorres García, Karen Manuela
dc.contributor.authorColina Hernández, Ian David
dc.date.accessioned2025-03-07T15:32:47Z
dc.date.available2025-03-07T15:32:47Z
dc.date.issued2024-12
dc.description.abstractLos datos faltantes representan un problema frecuente en el análisis estadístico, ya que pueden generar sesgos y reducir la precisión de las estimaciones de los parámetros asociados a los modelos de interés si no se manejan adecuadamente. El análisis de componentes principales probabilístico (ACPP) es una extensión con enfoque probabilístico del clásico análisis de componentes principales (ACP), basado en un modelo de factores latentes gaussianos, que permite reducir la dimensionalidad de los datos extrayendo componentes que capturan la mayor parte de la variabilidad de las variables originales. En este trabajo, el ACPP se implementa dentro del algoritmo de imputación múltiple mediante ecuaciones encadenadas (MICE) para generar múltiples conjuntos de datos completos que conservan tanto las dependencias subyacentes como la incertidumbre de las imputaciones. El desempeño del modelo se compara con otros métodos establecidos, como Lasso regularizado, bosques aleatorios y árboles de decisión, evaluando su estabilidad, convergencia y precisión. Los resultados muestran que el modelo propuesto proporciona imputaciones consistentes y adecuadas, preservando las propiedades estructurales del conjunto de datos original.
dc.description.abstractenglishMissing data is a common challenge in statistical analysis, as it can introduce bias and reduce the precision of parameter estimates for the models of interest if not handled appropriately. Probabilistic Principal Component Analysis (PPCA) is a probabilistic extension of the classical Principal Component Analysis (PCA), based on a Gaussian latent factor model, which reduces data dimensionality by extracting components that capture most of the variability in the original variables. In this study, PPCA is implemented within the Multiple Imputation by Chained Equations (MICE) algorithm to generate multiple complete datasets that preserve both the underlying dependencies and the uncertainty of the imputations. The performance of the model is compared to other established methods, such as regularized Lasso, random forests, and decision trees, by evaluating its stability, convergence, and accuracy. The results demonstrate that the proposed model provides consistent and adequate imputations, preserving the structural properties of the original dataset.
dc.identifier.urihttps://hdl.handle.net/20.500.12495/14074
dc.language.isoes
dc.relation.referencesBreaban, Mihaela y Henri Luchian (2011). “A unifying criterion for unsupervised clustering and feature selection”. En: Pattern Recognition 44.4, p´ags. 854-865. issn: 0031-3203. doi: https://doi.org/10.1016/j.patcog.2010.10.006. url: https://www.sciencedirect.com/science/article/pii/S0031320310004905.
dc.relation.referencesDagnino, J. (2014). “Datos faltantes (Missing values)”. En: Bioestadística y Epidemiología 43.4. url: https://revistachilenadeanestesia.cl/datos-faltantes-missing-values/.
dc.relation.referencesHegde, Harshad et al. (2019). “MICE vs PPCA: Missing data imputation in healthcare”. En: Informatics in Medicine Unlocked. doi: https://doi.org/10.1016/j.imu.2019.100275.
dc.relation.referencesJosse, Julie y Fran¸ cois Husson (2016). “missMDA: A Package for Handling Missing Values in Multivariate Data Analysis”. En: Journal of Statistical Software 70.1, p´ags. 1-31. doi: 10.18637/jss.v070.i01. url: https://www.jstatsoft.org/article/view/v070i01.
dc.relation.referencesLittle, Roderick J. A. y Rubin. (2019). Statistical Analysis with Missing Data. 3rd. Hoboken, NJ: Wiley. isbn: 978-1119482260.
dc.relation.referencesRubin (1976). “Inference and Missing Data”. En: Biometrika 63.3, p´ags. 581-592. issn: 00063444, 14643510. url: http://www.jstor.org/stable/2335739 (visitado 21-11-2024).– (1987). Multiple Imputation for Nonresponse in Surveys. Hoboken, NJ: John Wiley & Sons. isbn: 978-0471655749.
dc.relation.referencesTipping, Michael E. y Christopher M. Bishop (1999). “Probabilistic Principal Component Analysis”. En: Journal of the Royal Statistical Society: Series B (Statistical Methodology) 61.3, p´ags. 611-622. doi: 10.1111/1467-9868.00196.
dc.relation.referencesVan Buuren, Stef (2018). Flexible Imputation of Missing Data. 2nd. Boca Raton, FL: CRC Press. isbn: 978-1138588318.
dc.rightsAttribution-NonCommercial-ShareAlike 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectImputación múltiple
dc.subjectACPP
dc.subjectAlgoritmo MICE
dc.subjectModelo de imputación
dc.subject.keywordsMultiple imputation
dc.subject.keywordsPPCA
dc.subject.keywordsMICE Algorithm
dc.subject.keywordsImputation model
dc.titleUn modelo de imputación múltiple basado en el análisis de componentes principales probabilístico para variables numéricas
dc.title.translatedA multiple imputation model based on probabilistic principal component analysis for numerical variables

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Trabajo de grado.pdf
Tamaño:
4.09 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
1.95 KB
Formato:
Item-specific license agreed upon to submission
Descripción:
Cargando...
Miniatura
Nombre:
Carta de autorizacion.pdf
Tamaño:
285.81 KB
Formato:
Adobe Portable Document Format
Descripción:
Cargando...
Miniatura
Nombre:
Anexo 1 acta de aprobacion.pdf
Tamaño:
299.7 KB
Formato:
Adobe Portable Document Format
Descripción: