Un modelo de imputación múltiple basado en el análisis de componentes principales probabilístico para variables numéricas
| dc.contributor.advisor | Pacheco López, Mario José | |
| dc.contributor.author | Torres García, Karen Manuela | |
| dc.contributor.author | Colina Hernández, Ian David | |
| dc.date.accessioned | 2025-03-07T15:32:47Z | |
| dc.date.available | 2025-03-07T15:32:47Z | |
| dc.date.issued | 2024-12 | |
| dc.description.abstract | Los datos faltantes representan un problema frecuente en el análisis estadístico, ya que pueden generar sesgos y reducir la precisión de las estimaciones de los parámetros asociados a los modelos de interés si no se manejan adecuadamente. El análisis de componentes principales probabilístico (ACPP) es una extensión con enfoque probabilístico del clásico análisis de componentes principales (ACP), basado en un modelo de factores latentes gaussianos, que permite reducir la dimensionalidad de los datos extrayendo componentes que capturan la mayor parte de la variabilidad de las variables originales. En este trabajo, el ACPP se implementa dentro del algoritmo de imputación múltiple mediante ecuaciones encadenadas (MICE) para generar múltiples conjuntos de datos completos que conservan tanto las dependencias subyacentes como la incertidumbre de las imputaciones. El desempeño del modelo se compara con otros métodos establecidos, como Lasso regularizado, bosques aleatorios y árboles de decisión, evaluando su estabilidad, convergencia y precisión. Los resultados muestran que el modelo propuesto proporciona imputaciones consistentes y adecuadas, preservando las propiedades estructurales del conjunto de datos original. | |
| dc.description.abstractenglish | Missing data is a common challenge in statistical analysis, as it can introduce bias and reduce the precision of parameter estimates for the models of interest if not handled appropriately. Probabilistic Principal Component Analysis (PPCA) is a probabilistic extension of the classical Principal Component Analysis (PCA), based on a Gaussian latent factor model, which reduces data dimensionality by extracting components that capture most of the variability in the original variables. In this study, PPCA is implemented within the Multiple Imputation by Chained Equations (MICE) algorithm to generate multiple complete datasets that preserve both the underlying dependencies and the uncertainty of the imputations. The performance of the model is compared to other established methods, such as regularized Lasso, random forests, and decision trees, by evaluating its stability, convergence, and accuracy. The results demonstrate that the proposed model provides consistent and adequate imputations, preserving the structural properties of the original dataset. | |
| dc.identifier.uri | https://hdl.handle.net/20.500.12495/14074 | |
| dc.language.iso | es | |
| dc.relation.references | Breaban, Mihaela y Henri Luchian (2011). “A unifying criterion for unsupervised clustering and feature selection”. En: Pattern Recognition 44.4, p´ags. 854-865. issn: 0031-3203. doi: https://doi.org/10.1016/j.patcog.2010.10.006. url: https://www.sciencedirect.com/science/article/pii/S0031320310004905. | |
| dc.relation.references | Dagnino, J. (2014). “Datos faltantes (Missing values)”. En: Bioestadística y Epidemiología 43.4. url: https://revistachilenadeanestesia.cl/datos-faltantes-missing-values/. | |
| dc.relation.references | Hegde, Harshad et al. (2019). “MICE vs PPCA: Missing data imputation in healthcare”. En: Informatics in Medicine Unlocked. doi: https://doi.org/10.1016/j.imu.2019.100275. | |
| dc.relation.references | Josse, Julie y Fran¸ cois Husson (2016). “missMDA: A Package for Handling Missing Values in Multivariate Data Analysis”. En: Journal of Statistical Software 70.1, p´ags. 1-31. doi: 10.18637/jss.v070.i01. url: https://www.jstatsoft.org/article/view/v070i01. | |
| dc.relation.references | Little, Roderick J. A. y Rubin. (2019). Statistical Analysis with Missing Data. 3rd. Hoboken, NJ: Wiley. isbn: 978-1119482260. | |
| dc.relation.references | Rubin (1976). “Inference and Missing Data”. En: Biometrika 63.3, p´ags. 581-592. issn: 00063444, 14643510. url: http://www.jstor.org/stable/2335739 (visitado 21-11-2024).– (1987). Multiple Imputation for Nonresponse in Surveys. Hoboken, NJ: John Wiley & Sons. isbn: 978-0471655749. | |
| dc.relation.references | Tipping, Michael E. y Christopher M. Bishop (1999). “Probabilistic Principal Component Analysis”. En: Journal of the Royal Statistical Society: Series B (Statistical Methodology) 61.3, p´ags. 611-622. doi: 10.1111/1467-9868.00196. | |
| dc.relation.references | Van Buuren, Stef (2018). Flexible Imputation of Missing Data. 2nd. Boca Raton, FL: CRC Press. isbn: 978-1138588318. | |
| dc.rights | Attribution-NonCommercial-ShareAlike 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ | |
| dc.subject | Imputación múltiple | |
| dc.subject | ACPP | |
| dc.subject | Algoritmo MICE | |
| dc.subject | Modelo de imputación | |
| dc.subject.keywords | Multiple imputation | |
| dc.subject.keywords | PPCA | |
| dc.subject.keywords | MICE Algorithm | |
| dc.subject.keywords | Imputation model | |
| dc.title | Un modelo de imputación múltiple basado en el análisis de componentes principales probabilístico para variables numéricas | |
| dc.title.translated | A multiple imputation model based on probabilistic principal component analysis for numerical variables |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Trabajo de grado.pdf
- Tamaño:
- 4.09 MB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 3 de 3
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 1.95 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción:
Cargando...
- Nombre:
- Carta de autorizacion.pdf
- Tamaño:
- 285.81 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
Cargando...
- Nombre:
- Anexo 1 acta de aprobacion.pdf
- Tamaño:
- 299.7 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
