Un modelo de imputación múltiple basado en el análisis de componentes principales probabilístico para variables numéricas
Cargando...
Archivos
Fecha
2024-12
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Los datos faltantes representan un problema frecuente en el análisis estadístico, ya que pueden generar sesgos y reducir la precisión de las estimaciones de los parámetros asociados a los modelos de interés si no se manejan adecuadamente. El análisis de componentes principales probabilístico (ACPP) es una extensión con enfoque probabilístico del clásico análisis de componentes principales (ACP), basado en un modelo de factores latentes gaussianos, que permite reducir la dimensionalidad de los datos extrayendo componentes que capturan la mayor parte de la variabilidad de las variables originales. En este trabajo, el ACPP se implementa dentro del algoritmo de imputación múltiple mediante ecuaciones encadenadas (MICE) para generar múltiples conjuntos de datos completos que conservan tanto las dependencias subyacentes como la incertidumbre de las imputaciones. El desempeño del modelo se compara con otros métodos establecidos, como Lasso regularizado, bosques aleatorios y árboles de decisión, evaluando su estabilidad, convergencia y precisión. Los resultados muestran que el modelo propuesto proporciona imputaciones consistentes y adecuadas, preservando las propiedades estructurales del conjunto de datos original.
Descripción
Abstract
Missing data is a common challenge in statistical analysis, as it can introduce bias and reduce the precision of parameter estimates for the models of interest if not handled appropriately. Probabilistic Principal Component Analysis (PPCA) is a probabilistic extension of the classical Principal Component Analysis (PCA), based on a Gaussian latent factor model, which reduces data dimensionality by extracting components that capture most of the variability in the original variables. In this study, PPCA is implemented within the Multiple Imputation by Chained Equations (MICE) algorithm to generate multiple complete datasets that preserve both the underlying dependencies and the uncertainty of the imputations. The performance of the model is compared to other established methods, such as regularized Lasso, random forests, and decision trees, by evaluating its stability, convergence, and accuracy. The results demonstrate that the proposed model provides consistent and adequate imputations, preserving the structural properties of the original dataset.
Palabras clave
Imputación múltiple, ACPP, Algoritmo MICE, Modelo de imputación
Keywords
Multiple imputation, PPCA, MICE Algorithm, Imputation model