Enfoque híbrido Bagging y Boosting para predecir el Bienestar Subjetivo en Colombia con interpretabilidad SHAP
Cargando...
Archivos
Fecha
Autores
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Este estudio parte de la hipótesis de que los modelos de aprendizaje automático explicables permiten predecir con mayor precisión los niveles de Bienestar Subjetivo (BS) en Colombia que los enfoques estadísticos tradicionales, y que su uso facilita la identificación de los principales determinantes para orientar políticas públicas. Para ello, se utilizaron datos de la Encuesta Nacional de Calidad de Vida (2023), aplicando modelos de clasificación multiclase tipo Boosting y Bagging (para una red neuronal de entrada híbrida), integrados posteriormente en un modelo Stacking. Estos modelos se optimizaron mediante ajuste de hiperparámetros con validación cruzada estratificada y optuna.
La metodología incluyó, además, técnicas de interpretabilidad SHAP y Deep SHAP. El modelo final alcanzó un rendimiento competitivo, lo que permitió realizar un análisis en términos demográficos y geográficos. Se identificaron como principales determinantes la felicidad experimentada, la satisfacción con la salud, el sentido de la vida y la satisfacción con el ingreso, con diferencias regionales y por grupos poblacionales.
Descripción
Abstract
This study is based on the hypothesis that explainable machine learning models can predict levels of Subjective Well-Being (SWB) in Colombia more accurately than traditional statistical approaches, and that their use enables the identification of key determinants to inform public policy. To test this, data from the 2023 National Quality of Life Survey were used to train multiclass classification models based on Boosting and Bagging (for a hybrid-input neural network), which were integrated into a final Stacking model. These models were optimized using hyperparameter tuning with stratified cross-validation and Optuna.
The methodology also included explainability techniques such as SHAP and Deep SHAP. The final model achieved competitive performance and enabled analysis by demographic and geographic segments. The main determinants identified were experienced happiness, satisfaction with health, sense of purpose, and satisfaction with income, with notable variations across regions and population groups.
Palabras clave
Interpretabilidad de modelos, Ciencia de datos, Economía de la felicidad, Bienestar, Política pública
