Modelos de Machine Learning para la predicción de muerte materna en Colombia
Cargando...
Archivos
Fecha
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Objetivo: Desarrollar y comparar modelos de aprendizaje automático supervisado (Machine Learning) para predecir la ocurrencia de muertes maternas en Colombia, a partir de la base de datos del DANE de mortalidad materna del 2022.
Métodos: Se realizó un estudio transversal con enfoque correlacional utilizando registros de defunciones. La variable de interés presentó un fuerte desbalance: el 99.84% (n = 286,786) son muertes no maternas y solo el 0.16% (n = 464) a casos con muerte materna. Para el preprocesamiento, se llevaron a cabo tareas de limpieza, transformación y selección de variables. Se aplicaron técnicas para el tratamiento de datos faltantes y balanceo de clases, utilizando el método Sobremuestreo Aleatorio (ROS). Se entrenaron y evaluaron los modelos de Regresión Logística, Random Forest, Máquinas de Soporte Vectorial (SVM), Bagging Classifier y Naive Bayes, utilizando la validación cruzada. Los rendimientos de los modelos se compararon con las métricas de Precisión, Sensibilidad, F1-Score y Exactitud.
Resultados: Random Forest fue el modelo con mejor desempeño para la predicción de muertes maternas, con un F1-score elevado y buena combinación de precisión y sensibilidad, seguido por Bagging Classifier que mostró un rendimiento similar pero ligeramente inferior. Estos modelos superan métodos lineales (Regresión Logística, SVM) y a modelos probabilísticos o basados en distancias (Naive Bayes, KNN). Las variables con mayor peso en el modelo fueron la causa básica, la edad y el estado civil. Estos hallazgos son coherentes con la evidencia que vincula factores demográficos, sociales y territoriales con la mortalidad materna y sugieren un posible papel adicional del estado civil como factor asociado.
Conclusiones: Random Forest fue el modelo con mejor desempeño para predecir muertes maternas, destacándose por su alta precisión, sensibilidad y F1-score, incluso en un contexto de desbalance extremo. Este rendimiento superior sugiere que los enfoques basados en árboles de decisión son efectivos para la identificación temprana de riesgos maternos, lo que proporciona una herramienta valiosa para la toma de decisiones en salud materna.
Descripción
Abstract
Objective: To develop and compare supervised machine learning models to predict the occurrence of maternal deaths in Colombia, using the 2022 maternal mortality database from DANE.
Methods: A cross-sectional study with a correlational approach was conducted using death records. The variable of interest showed a strong imbalance: 99.84% (n = 286,786) were non-maternal deaths, and only 0.16% (n = 464) were maternal deaths. Data preprocessing involved cleaning, transformation, and variable selection tasks. Techniques for handling missing data and class balancing were applied using the Random Oversampling (ROS) method. The Logistic Regression, Random Forest, Support Vector Machines (SVM), Bagging Classifier, and Naive Bayes models were trained and evaluated using cross-validation. The model performances were compared using Precision, Sensitivity, F1-Score, and Accuracy metrics.
Results: Random Forest was the best-performing model for predicting maternal deaths, with a high F1-score and a good combination of precision and sensitivity, followed by Bagging Classifier, which showed similar but slightly lower performance. These models outperformed linear methods (Logistic Regression, SVM) and probabilistic or distance-based models (Naive Bayes, KNN). The variables with the greatest weight in the model were the underlying cause, age, and marital status. These findings align with evidence linking demographic, social, and territorial factors to maternal mortality and suggest a potential additional role of marital status as an associated factor.
Conclusions: Random Forest was the best-performing model for predicting maternal deaths, standing out for its high precision, sensitivity, and F1-score, even in a context of extreme imbalance. This superior performance suggests that tree-based approaches are effective for the early identification of maternal risks, providing a valuable tool for decision-making in maternal health.
Palabras clave
Mortalidad Materna, Salud pública, Defunción, Aprendizaje Automático, Desbalance de clases, Predicción de Riesgo
