Predicción y análisis de la deserción estudiantil en la Facultad de Ingeniería de la Universidad El Bosque mediante modelos avanzados de Machine Learning: Identificación de variables más influyentes, caracterización de graduados y no graduados, y detección temprana
Cargando...
Archivos
Fecha
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Este estudio presenta un enfoque mixto para predecir y analizar la deserción estudiantil en la Facultad de Ingeniería de la Universidad El Bosque, integrando técnicas supervisadas y no supervisadas de aprendizaje automático. Se utilizaron datos de 6 054 estudiantes (2008–2025) con variables sociodemográficas (género, estrato socioeconómico, jornada, tipo de estudiante y estado civil) y académicas (edad y semestres aprobados). El preprocesamiento incluyó imputación de valores faltantes mediante KNN, codificación ordinal y selección de atributos. Se entrenaron y compararon modelos supervisados (árboles de decisión, Random Forest, SVM, XGBoost y LightGBM) con validación cruzada estratificada. LightGBM obtuvo el mejor desempeño (F1-macro = 0,895; AUC = 0,95), destacándose por su bajo número de falsos negativos, ideal para alertas tempranas. La interpretabilidad del modelo se abordó con SHAP, que identificó como predictores clave los semestres aprobados, estrato, jornada, tipo de estudiante y edad. Complementariamente, se aplicó K-Modes (k = 7) para identificar siete perfiles estudiantiles con trayectorias y condiciones heterogéneas. El Análisis de Correspondencias Múltiples reforzó esta segmentación, visualizando asociaciones significativas entre categorías. Los perfiles resultantes incluyen grupos consolidados, como mujeres avanzadas con alto desempeño, y otros en riesgo, como jóvenes de estrato bajo o adultos en jornada nocturna. En conjunto, este marco metodológico permite anticipar riesgos de deserción, comprender la diversidad estudiantil y orientar decisiones institucionales. Su aplicación puede fortalecer políticas de retención, optimizar recursos y promover una educación más equitativa y basada en datos.
Descripción
Abstract
This study presents a mixed approach to predicting and analyzing student dropout in the School of Engineering at Universidad El Bosque, integrating supervised and unsupervised machine learning techniques. The dataset comprises 6 054 students (2008–2025) with sociodemographic variables (gender, socioeconomic status, study schedule, student type, and marital status) and academic variables (age and approved semesters). Data preprocessing included missing value imputation using KNN, ordinal encoding, and feature selection. Supervised models (decision trees, Random Forest, SVM, XGBoost, and LightGBM) were trained and evaluated using stratified cross-validation. LightGBM achieved the best performance (F1-macro = 0.895; AUC = 0.95), with a notably low false-negative rate, making it suitable for early dropout alert systems. SHAP was used to interpret the model, identifying the most influential predictors as the number of approved semesters, socioeconomic status, study schedule, student type, and age. In parallel, K-Modes clustering (k = 7) was applied to uncover seven distinct student profiles with heterogeneous academic and demographic trajectories. Multiple Correspondence Analysis (MCA) further supported this segmentation by revealing significant associations among categorical variables. The resulting profiles range from consolidated trajectories such as high-performing advanced female students to at risk groups like low-income freshmen or adult night-shift students. Overall, this methodological framework enables accurate dropout prediction, nuanced student profiling, and data-driven decision-making. Its application can enhance institutional retention policies, improve resource allocation, and promote a more equitable and evidence-based approach to higher education management.
Palabras clave
Deserción estudiantil, Machine Learning, LightGBM, SHAP, Agrupamiento K-Modes
