Predicción del riesgo de deserción en un programa de fortalecimiento empresarial en países de América Latina. Desarrollo de un modelo de machine learning para clasificación de mujeres empresarias
Cargando...
Archivos
Fecha
Autores
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Introducción: La deserción en programas de formación empresarial en América Latina es un problema persistente que pone en riesgo la ejecución, la continuidad y la sostenibilidad de iniciativas que tienen por objetivo fortalecer el desarrollo de negocios en la región, sobre todo entre mujeres empresarias. Este fenómeno se vuelve aún más crítico dada la inversión de donantes, como gobiernos y organizaciones internacionales.
Objetivo: Desarrollar un modelo de clasificación de machine learning para identificar mujeres empresarias con alto riesgo de deserción en programas de fortalecimiento empresarial en países de América Latina, con el fin de implementar intervenciones tempranas y personalizadas.
Métodos: Se realizó un análisis descriptivo y predictivo utilizando datos del programa de formación empresarial para mujeres líderes denominado Juntas Contamos, desarrollado por Agora Partnerships, BID Lab y We-Fi, junto a contribuyentes claves como Hispanics in Philanthropy, Fundación Target y Cisco; que tiene por objetivo beneficiar a 4 mil mujeres empresarias de México, Honduras, El Salvador y Guatemala. Se emplearon métodos de imputación de datos faltantes y balanceo de clases mediante el método SMOTE. Se evaluaron cuatro métodos de clasificación: regresión logística, random forest, K-Nearest Neighbors (KNN) y XGBoost (Extreme Gradient Boosting). El desempeño de los modelos se comparó utilizando métricas de precisión, sensibilidad, especificidad y F1-score.
Resultados: El conjunto de datos empleado para entrenar los modelos de machine learning consistió en 2614 observaciones. Los modelos Random Forest y XGBoost presentaron las mejores métricas de resultados, dado que mostraron un alto desempeño y equilibrado en todas las métricas evaluadas (precisión, sensibilidad, especificidad y F1-score), con valores superiores al 96%.
Conclusión: Los modelos Random Forest y XGboost demostraron ser los más exitosos en relación a la predicción de la deserción en el programa de fortalecimiento empresarial Juntas Contamos. Los resultados resaltan algunos factores que inciden en la permanencia de las mujeres participantes en el programa y ofrece algunas recomendaciones para diseñar estrategias tempranas de prevención de deserción, eficiencias en el presupuesto, personalización en las estrategias de convocatoria, evaluación, selección y comunicación.
Descripción
Abstract
Introduction: Entrepreneurial training program dropout in Latin America is a persistent issue that jeopardizes the execution, continuity, and sustainability of initiatives aimed at strengthening business development in the region, particularly among women entrepreneurs. This phenomenon becomes even more critical given the investment fromdonors, such as governments and international organizations.
Objective: Develop a machine learning classification model to identify women entrepreneurs at high risk of dropping out from business development programs in Latin American countries, in order to implement early and personalized interventions.
Methods: A descriptive and predictive analysis was conducted using data from the business training program for women leaders called Juntas Contamos, developed by Agora Partnerships, BID Lab, and We-Fi, along with key contributors such as Hispanics in Philanthropy, Fundación Target, and Cisco; which aims to benefit 4,000 women entrepreneurs from Mexico, Honduras, El Salvador, and Guatemala. Methods for imputing missing data and class balancing using the SMOTE method were applied. Four classification methods were evaluated: logistic regression, random forest, K-Nearest Neighbors (KNN), and XGBoost (Extreme Gradient Boosting). The performance of the models was compared using precision, recall, specificity, and F1-score metrics.
Results: The dataset used to train the machine learning models consisted of 2,614 observations. The Random Forest and XGBoost models showed the best results given that these models showed high and balanced performance across all evaluated metrics (accuracy, recall, specificity and F1-score), with values above 96%.
Conclusion: The Random Forest and XGBoost models proved to be the most successful in predicting dropout in the Juntas Contamos business development program. The results highlight some factors that influence the retention of women participants in the program and offer some recommendations for designing early dropout prevention strategies, budget efficiencies, personalization in recruitment strategies, evaluation, selection, and communication.
Palabras clave
Deserción, Formación empresarial, Machine learning, Mujeres empresarias
