Predicción de la ancestría regional en Colombia mediante modelos de machine learning a partir de perfiles genéticos de 23 marcadores STRs para aplicación en el campo forense
Cargando...
Archivos
Fecha
Autores
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
El presente estudio evaluó la capacidad de los modelos de Machine Learning (ML) para predecir la Ancestría Biogeográfica (BGA) en Colombia a partir de perfiles genéticos de 23 marcadores STR (Short tandem repeat) autosómicos. Se empleó un conjunto de 3.149 perfiles genéticos etiquetados por región de acuerdo con el departamento de nacimiento (Andina, Caribe, Pacífico, Amazonía-Orinoquía). Se implementó un pipeline de análisis que incluyó preprocesamiento de datos, codificación One-Hot, balanceo mediante SMOTE y la evaluación comparativa de seis clasificadores: Regresión Logística, Árboles de Decisión, Naive Bayes, K-Nearest Neighbors, Máquinas de vectores de soporte (SVM) y XGBoost. La validación cruzada estratificada de 10 pliegues permitió estimar métricas robustas de desempeño, se destaca SVM (F1-macro = 0.802; exactitud balanceada = 0.80) y XGBoost (F1-macro = 0.74; exactitud balanceada = 0.733), como los modelos de mayor rendimiento. Ambos modelos mostraron limitaciones significativas en las regiones minoritarias (Pacífico y Amazonía-Orinoquía), con una sensibilidad inferior al 20%, lo que refleja el desafío de clasificar poblaciones genéticamente cercanas y el impacto del desbalance muestral. El análisis de interpretabilidad SHAP identificó a vWA, D3S1358 y TH01 como los STRs con mayor poder predictivo en los dos modelos. Los resultados obtenidos confirman el potencial del uso de modelos de ML en genética forense, como una herramienta alternativa para aportar información en los procesos de identificación humana en Colombia en el contexto forense.
Descripción
Abstract
The present study evaluated the ability of Machine Learning (ML) models to predict Biogeographical Ancestry (BGA) in Colombia using genetic profiles composed of 23 autosomal Short Tandem Repeat (STR) markers. A dataset of 3,149 genetic profiles was used, each labeled by region according to the individual’s department of birth (Andean, Caribbean, Pacific, Amazon–Orinoquía). An analysis pipeline was implemented that included data preprocessing, One-Hot encoding, data balancing using SMOTE, and the comparative evaluation of six classifiers: Logistic Regression, Decision Tree, Naive Bayes, K-Nearest Neighbors, Support Vector Machines (SVM), and XGBoost. Ten-fold stratified cross-validation was performed to estimate robust performance metrics, highlighting SVM (macro-F1 = 0.802; balanced accuracy = 0.80) and XGBoost (macro-F1 = 0.74; balanced accuracy = 0.733) as the best-performing models. Both models showed significant limitations in minority regions (Pacific and Amazon–Orinoquía), with sensitivity below 20%, reflecting the challenge of classifying genetically related populations and the impact of sample imbalance. The SHAP interpretability analysis identified vWA, D3S1358, and TH01 as the STR markers with the highest predictive power in both models. The results confirm the potential of ML models in forensic genetics as an alternative tool to provide ancestry information in human identification processes within the Colombian forensic context.
Palabras clave
Genética forense, Ancestría biogeográfica, Aprendizaje automático, Marcadores STR autosómicos
