Maestría Estadística Aplicada y Ciencia de Datos

URI permanente para esta colección

Examinar

Envíos recientes

Mostrando 1 - 20 de 29
  • Ítem
    Dinámica causal de flujos de metano en dos turberas tropicales altoandinas, una aproximación desde los Modelos Empíricos Dinámicos
    (2024-12) Delgado-Guerrero, Alejandro; Ramos Montaña, Jesús David; Benavides Duque, Juan Carlos; 0000-0002-7787-0691
    Las emisiones de metano de humedales tropicales representan una de las mayores contribuciones a las concentraciones globales de CH4 en las últimas décadas, asociadas a fenómenos ecosistémicos complejos y dinámicos, impulsados por procesos químicos, físicos y biológicos que interactúan y definen el comportamiento del sistema. A pesar de su importancia, los modelos tradicionales de flujos de gases de efecto invernadero han adoptado enforques lineales y estáticos, que no se ajustan a las dinámicas dependientes de estado de los ecosistemas de turbera. En el presente estudio se monitorearon los flujos de CH4 y CO2 en dos turberas tropicales altoandinas utilizando torres Eddy Covariance y se empleó el marco de análisis de Modelos empíricos dinámicos y Mapeo cruzado convergente como una aproximación no paramétrica para identificar y cuantificar las relaciones causales y estimar la capacidad predictiva de variables ecosistémicas sobre el flujo de CH4. Las turberas monitoreadas actuaron como fuentes de metano con valores que oscilaron entre 0.002 y 0.051 g m⁻² día⁻¹ y mientras que los flujos de CO2 variaron de -3.861 a 13.375 g m⁻² día⁻¹, con estructuras temporales descrita por ciclos diarios. La influencia causal y la capacidad de predicción sobre el flujo de CH4 presento resultados consistentes con patrones informados, asociados a condiciones hidrológicas, de temperatura y a la productividad primaria bruta, constituyendo una forma alternativa de cuantificar y comprender las interacciones causales de variables ecosistemas sobre el flujo de CH4, que considera la no linealidad del proceso, su estructura temporal y la direccionalidad de la influencia causal. El marco de análisis aplicado aporta al entendimiento conceptual y metodológico asociado a la complejidad del sistema y sus interacciones, identificando variables claves y procesos que regulan la producción, el consumo y el transporte de metano, ofreciendo una herramienta complementaria para el desarrollo de modelos ecosistémicos.
  • Ítem
    Un modelo de imputación múltiple basado en el análisis de componentes principales probabilístico para variables numéricas
    (2024-12) Torres García, Karen Manuela; Colina Hernández, Ian David; Pacheco López, Mario José
    Los datos faltantes representan un problema frecuente en el análisis estadístico, ya que pueden generar sesgos y reducir la precisión de las estimaciones de los parámetros asociados a los modelos de interés si no se manejan adecuadamente. El análisis de componentes principales probabilístico (ACPP) es una extensión con enfoque probabilístico del clásico análisis de componentes principales (ACP), basado en un modelo de factores latentes gaussianos, que permite reducir la dimensionalidad de los datos extrayendo componentes que capturan la mayor parte de la variabilidad de las variables originales. En este trabajo, el ACPP se implementa dentro del algoritmo de imputación múltiple mediante ecuaciones encadenadas (MICE) para generar múltiples conjuntos de datos completos que conservan tanto las dependencias subyacentes como la incertidumbre de las imputaciones. El desempeño del modelo se compara con otros métodos establecidos, como Lasso regularizado, bosques aleatorios y árboles de decisión, evaluando su estabilidad, convergencia y precisión. Los resultados muestran que el modelo propuesto proporciona imputaciones consistentes y adecuadas, preservando las propiedades estructurales del conjunto de datos original.
  • Ítem
    Heterogeneidad cognitiva en estudiantes indígenas: un análisis de Clustering en un entorno universitario multicultural
    (2025-01) Martínez Guerra, María Alejandra; Duitama Leal, Alejandro; Bru Cordero, Osnamir Elias; Duitama Leal, Alejandro; Bru Cordero, Osnamir Elias; Martínez Guerra, María Alejandra [0000-0002-3871-5170]; Duitama Leal, Alejandro [0000-0002-5477-2191]; Bru Cordero, Osnamir Elias [0000-0001-9425-9475]
    Este artículo se destaca como el primero en abordar de manera sistemática los estilos de aprendizaje en comunidades indígenas dentro del contexto universitario del departamento del Cesar, un tema que hasta ahora no había sido explorado en la región. Esta ausencia de investigaciones previas resalta la importancia y necesidad de cerrar esta brecha de conocimiento. En este estudio, se optó por un enfoque cuantitativo, no experimental y de corte transeccional descriptivo. Se utilizaron algoritmos de aprendizaje automático no supervisado, específicamente de clustering, para analizar los datos recopilados. Este método permitió clasificar a los estudiantes en distintos grupos o clusters según sus similitudes y preferencias en los estilos de aprendizaje, considerando las dimensiones activo, reflexivo, teórico y pragmático. Los resultados bajo los modelos de Machine Learning K-means y Agglomerative Clustering (hClust) muestran que el (40 − 45 % ) de los participantes abarcando tanto a los hombres como a las mujeres, tienen preferencias moderadas o altas en varios estilos de aprendizaje. Un subgrupo de mujeres ( 7−12 % ) destaca por su inclinación hacia los estilos activo, teórico y pragmático.
  • Ítem
    Proyecto de código abierto: desarrollo de una herramienta para la detección de contenido generado por IA en textos
    (2024-12) Perdomo Rojas, Diego Mauricio; Cubillos Delgado, Alfonso
    El desarrollo de la herramienta se estructura de la preparación de los datos, identificar diferentes fuentes de datos para el entrenamiento del modelo, luego seleccionar el mejor lenguaje de programación que se adapte y tenga un fácil mantenimiento, por lo cual fue escogido Python 3, una vez seleccionado el lenguaje de programación, seleccionar el mejor modelo que se adapte y evolucione con futuras revisiones junto con sus librerías, una vez seleccionado el potencial modelo que fue GPT-2 para su base, se comenzó a diseñar y configurar el código con el modelo GPT-2, una vez diseñado el código, comienza la fase de implementación y entrenamiento del modelo, realizando ajustes en sus parámetros para dar una mejor precisión en sus decisiones, la fase final del código fue hacer un diseño interactivo para que el usuario pueda interactuar y probar la herramienta en una instancia local y posteriormente en un alojamiento web, la herramienta tiene la capacidad de además de hacer un análisis y una clasificación sobre el contenido de los archivos anexados , también puede exportar un archivo csv con los resultados de los análisis hechos. Por último, evaluar el modelo utilizando métricas de desempeño, con el propósito de analizar su precisión y exactitud a diferentes situaciones y comparar los mismos análisis con otros productos lanzados a producción como pueden ser GPTZero, ZeroGPT y Copyleaks.
  • Ítem
    Predicción de niveles de morosidad de cartera para una empresa del sector de transacciones financieras y no financieras usando modelos de machine learning
    (2024-12) Ramírez Jiménez, Julio Cesar; Marines Lamprea, Enzo Fabian; Alfonso, Cubillos Delgado
    La presente investigación tiene como objetivo desarrollar y evaluar modelos de clasificación multiclase para predecir los niveles de morosidad e incumplimiento de pago en los clientes de una empresa en el sector de transacciones financieras y no financieras utilizando técnicas avanzadas de machine learning. El estudio busca optimizar la gestión de cobro de cartera permitiendo que la empresa identifique clientes con alta probabilidad de impago y tome acciones preventivas. El diseño metodológico es cuantitativo, no experimental y transeccional, empleando modelos de aprendizaje supervisado como Random Forest, XGBoost, LightGBM, LSTM, Transformes y redes neuronales, y técnicas de procesamiento de datos como Label Encoding, One-Hot Encoding, z-score standaritation y SMOTE para balance de clases. La base de datos contiene 1.685.889 registros de clientes, recolectados durante 13 meses, y variables que incluyen características financieras y propias de los clientes. El análisis descriptivo inicial incluye la segmentación de clientes por franjas de mora, identificación de patrones estacionales y selección de variables clave. La base de datos fue segmentada en conjuntos de entrenamiento, validación y prueba, lo que aseguró una evaluación completa y equilibrada de los modelos predictivos. Entre las métricas de evaluación empleadas se incluyeron MCC, F1 Score, Recall, AUC, Accuracy, Precisión y Kappa, permitiendo una comparación exhaustiva de la precisión y la robustez de cada modelo. Se realiza la construcción y modelado de la proyección para la gestión de cobranza de cartera utilizando los resultados del modelo XGBoost mostrando el alcance que puede llegar a tener su implementación, resaltando el potencial de los algoritmos de machine learning para mejorar la toma de decisiones financieras. Los resultados sugieren que a futuro la investigación podría beneficiarse si también se exploran modelos basados en transformer, que han demostrado ser efectivos en el manejo de secuencias temporales y podrían ofrecer mejoras en la precisión y adaptabilidad en entornos complejos de datos financieros.
  • Ítem
    Predicción de la demanda de glóbulos rojos en un banco de sangre de Bogotá a través de modelos de machine learning
    (2025-01) Villate Avendano, Maria Pilar; Hernandez Martinez, Manuel Salvador; Puentes Morales, Carlos; Villate Avendano, Maria Pilar [0009-0003-5789-6557]; Hernandez Martinez, Manuel Salvador [0009-0006-8118-7023]
    Lograr predecir la demanda de hemocomponentes solicitada a los Bancos de sangre, contribuye a la gestión y planeación en la cadena transfusional mejorando el suministro de unidades sanguíneas. De acuerdo al Informe de Disponibilidad de Recursos en Promoción de la Donación y Colecta de Sangre en Colombia del año 2022 del Instituto Nacional de Salud, los glóbulos rojos del grupo sanguíneo O corresponden al 65.7% de las donaciones aceptadas, siendo el grupo más representativo. Las predicciones inexactas de la demanda pueden llevar a situaciones, ya sea de escasez o exceso de stock de hemocomponentes, en las últimas estadísticas publicadas por la Red Distrital de Sangre la demanda satisfecha está por debajo de la meta distrital del 90%, sumado a que entre 2021 y 2022, la incineración de glóbulos rojos aumentó un 25.2%. Modelos basados en machine learning y redes neuronales, han mostrado ser efectivos para realizar predicciones de la demanda. Este tipo de modelos permiten captar patrones no lineales y fluctuaciones estacionales, lo que facilita una planificación más eficiente en escenarios con alta variabilidad. Investigaciones recientes han validado la efectividad de estos modelos en la predicción de productos sanguíneos. Esta investigación tiene como objetivo diseñar e implementar diferentes modelos de machine learning para la predicción de la demanda de glóbulos rojos en un Banco de Sangre de Bogotá. La aplicación de estos modelos contribuye a una mejor planificación de las jornadas de colecta, a reducir el riesgo de desperdicio, y a mejorar la disponibilidad de hemocomponentes. La implementación de los modelos permitió concluir que las redes neuronales, presentan mejores resultados para la predicción de los glóbulos rojos, para el caso del grupo sanguíneo O+ el mejor modelo fue Bi-GRU el cual obtuvo un R2 de 61.96%, MAE de 25.76, RMSE de 32.15 y un PCPS de 94.15%. En el caso de las solicitudes de O-, el modelo LSTM mostró el mejor desempeño en el conjunto de prueba, con un R2 de 55.29%, MAE de 4.090, RMSE de 5.180 y un PCPS de 94.19%.
  • Ítem
    Modelos híbridos y técnicas de machine learning para el pronóstico de series temporales en el mercado de acciones: caso Ecopetrol
    (2024-12) Torres Acero, Nicolás; Perez Perez, Lincoln Ernesto; Pacheco López, Mario José; Perez Perez, Lincoln Ernesto [0000-0002-5591-9714]
    La proyección de precios de acciones en mercados financieros es un desafío clave en el análisis económico, especialmente para inversionistas interesados en tomar decisiones informadas en un entorno de alta volatilidad. Es particularmente relevante para quienes monitorean activamente los mercados de renta variable en busca de oportunidades de inversión, aborda la necesidad de evaluar fluctuaciones de precios y ajustar estrategias en función de cambios en el mercado o desequilibrios en la cartera. Basados en esta idea se propone un enfoque híbrido para pronosticar el precio de cierre diario de las acciones de Ecopetrol, implementado el modelo ARIMAX-EGARCH al igual redes neuronales LSTM para ofrecer una solución robusta que equilibra la vigilancia de las inversiones con la toma de decisiones informadas. Utilizando datos históricos y factores macroeconómicos exógenos, se integran métodos tradicionales y técnicas de aprendizaje profundo, alcanzando precisiones de RMSE = 0.0475 para el modelo ARIMAX-EGARCH, que captura patrones lineales y la volatilidad condicional, y RMSE = 0.0352 para redes neuronales LSTM, diseñadas para abordar dinámicas no lineales. Los resultados destacan la eficacia de estos enfoques complementarios en la predicción de series temporales financieras, proporcionando a los inversionistas herramientas adicionales para interpretar las dinámicas del mercado de valores y optimizar sus estrategias.
  • Ítem
    Modelo de Machine Learning para relacionar la formación, tipo de vinculación y cargo de los docentes, con los resultados de las pruebas estandarizadas Saber 11 en los colegios oficiales del departamento Cundinamarca en el año 2023
    (2024-12) Miranda Escandón, Cristina Paola; Gómez Torres, José Maximiliano; Duitama Leal, Alejandro
    Numerosas políticas orientadas al mejoramiento de la calidad en la educación preescolar, básica y media se han centrado en la cualificación de alto nivel de los maestros como una herramienta clave para mejorar el éxito académico de los estudiantes. Sin embargo, la literatura revisada para este trabajo de grado no encuentra evidencia concluyente de una relación significativa entre los títulos de posgrado de los docentes y los resultados de sus estudiantes en pruebas estandarizadas. Investigaciones previas, basadas en estudios que usan modelos de regresión y series de tiempo, han sugerido que una mayor formación de los docentes no necesariamente se traduce en mejores rendimientos académicos de los alumnos. De forma similar, los enfoques de aprendizaje automático tampoco han identificado la formación avanzada de los docentes como una variable principal que afecte el rendimiento académico de los estudiantes. A pesar de ello, las recientes políticas públicas en Colombia insisten en que la formación de alto nivel de los docentes es un componente determinante en la mejora de los aprendizajes, particularmente en los niveles de preescolar, básica y media. En este contexto, el presente trabajo busca aportar sobre esta hipótesis de la política educativa: ¿realmente el nivel de formación, el tipo de vinculación y en rol de la institución educativa -IE de los docentes, influye de manera significativa en los resultados académicos, en los términos de las pruebas estandarizadas? Este trabajo propone un modelo basado en algoritmos de aprendizaje automático que predice la clasificación ICFES de los colegios oficiales en Cundinamarca. Para ello, se construyó una base de datos que integra características clave del perfil docente, incluyendo su nivel de formación (desde normalistas superiores hasta doctorados), su tipo de vinculación laboral al magisterio y su rol en la institución educativa. Estos atributos fueron analizados junto con la clasificación obtenida por cada colegio en las pruebas ICFES. Los resultados revelan que el modelo predictivo logró un rendimiento moderado, donde la formación de alto nivel de los docentes en niveles de especialización y maestría es una de las características más influyentes en la predicción de los resultados de las IE. Nuestro trabajo sugiere además que otros factores, como ser docente en propiedad y docente de aula, pueden tener un impacto considerable en la clasificación de los planteles educativos. Esperamos que este trabajo de grado represente una contribución al campo, al aplicar técnicas de aprendizaje automático para predecir los resultados de la clasificación ICFES de los colegios oficiales, usando características de formación, vinculación y rol de los docentes en las IE. Los hallazgos, que deben corroborarse con la información de otras entidades territoriales, podrían guiar futuras investigaciones y aportes sobre las verdaderas palancas para mejorar la calidad educativa en Colombia. Contribuciones: 1. Se ha reunido un conjunto de datos enfocado en predecir el desempeño de las IE del departamento, a partir de la formación avanzada, el tipo de vinculación y el rol de los docentes. 2. Este trabajo analiza las características de los docentes que influyen en la calidad de las IE, medida a través de pruebas estandarizadas, dejando de lado factores específicos del rendimiento individual de los estudiantes y su entorno. 3. Se ofrecen elementos para futuros modelos que profundicen en los factores que afectan la calidad educativa de las IE, usando las características docentes como variable central. De esta manera, se contribuye al entendimiento de las políticas públicas actuales y futuras, orientadas a fortalecer la calidad en los niveles de educación preescolar, básica y media.
  • Ítem
    Modelado predictivo en acciones de tutela: Uso de Modelos de Lenguaje de Gran Tamaño (LLM) para la predicción en el sector salud en Colombia
    (2024-07) Martínez Barahona, Nikolas; Hortúa Orjuela, Héctor Javier
    Este trabajo explora el uso de diferentes Modelos de Lenguaje de Gran Tamaño (LLM) para la predicción de cobertura y resultado en acciones de tutela en el sector salud en Colombia, con el fin de orientar la gestión de los recursos. Se utilizaron diferentes herramientas, incluyendo Ludwig, para entrenar y evaluar los LLM, LoRA (Low-Rank Adaptation) para el ajuste fino de los LLMs, Hugging Face para aprovechar los modelos preentrenados y personalizarlos y SHAP (SHapley Additive exPlanations) para explicar los modelos y evaluar la importancia de cada palabra en el texto, identificando como contribuyen a las predicciones de resultados en el análisis de la tutela. Los resultados mostraron que el mejor modelo fue BETO: Spanish BERT con una precisión para el target de Cobertura y de Resultado del 78% y 60% respectivamente. Se concluyó que el uso de LLMs, en combinación con herramientas como Ludwig, Hugging Face y SHAP, generan predicciones con alta precisión para la cobertura, sin embargo, no se generaron predicciones con un resultado aceptable para el resultado del fallo de tutela. De manera que, la adopción de estas tecnologías puede optimizar los recursos de los actores del sistema de salud en Colombia. Esta exploración contribuye al campo de la predicción en acciones de tutela en salud, proporcionando un enfoque innovador y costo eficiente para mejorar la gestión de recursos, promoviendo decisiones más informadas y basadas en datos
  • Ítem
    Estimación de la pobreza multidimensional en los municipios de Colombia mediante la metodología de estimación en áreas pequeñas para 2022
    (2024-12) Melo Buitrago, Laura Alejandra; Rodríguez Molina, Laura Daniela; Tellez Piñerez, Cristian Fernando
    El Índice de Pobreza Multidimensional (IPM) proporciona una medición integral de la pobreza al considerar múltiples dimensiones que afectan la calidad de vida, como la educación, la salud y el acceso a servicios básicos. No obstante, su estimación a nivel municipal enfrenta retos significativos debido a la falta de datos suficientemente desagregados. Este artículo propone el uso del modelo FayHerriot, basado en la metodología de Estimación en Áreas Pequeñas (SAE), para calcular con mayor precisión el IPM municipal correspondiente al año 2022. El modelo permite mejorar la exactitud de las estimaciones en municipios con limitaciones de datos. Los resultados evidencian la generación de estimaciones detalladas y confiables, proporcionando una base sólida para la medición de la pobreza a un nivel más desagregado.
  • Ítem
    Desarrollo de un sistema a la medida de generación aumentada por recuperación para la consulta interactiva de información especializada de estadística delictiva en Colombia
    (2024-12) Forero Baena, Nicolás; Hortua Orjuela, Hector Javier
    Los modelos de lenguaje de gran tamaño, o LLMs por sus siglas en inglés, han mostrado capacidades formidables en la generación de texto articulado. Actualmente, son la base de varios tipos de aplicaciones en la escena IA, e.g. chatbots, sistemas QA, recomendadores, etc. Sin embargo, estos LLMs pueden mostrar imprecisiones convincentes sobre temas especializados o recientes, lo que se conoce como ‘alucinaciones’. Por tal motivo, la generación aumentada por recuperación, o RAG por sus siglas en inglés, se ha mostrado útil en la producción de contenido factualmente correcto por parte de los LLMs, al brindarles una base de conocimiento o una ventana contextual verídica, e.g. texto, base de datos, etc. Se desarrolló una aplicación web con los marcos de trabajo Langchain y LangGraph, mediante la cual un usuario hace consultas en lenguaje natural sobre estadística delictiva de Colombia; un modelo como GPT4o interpreta dicha consulta, la traduce en lenguaje SQL, ejecuta la consulta sobre una base de conocimiento especializada construída a partir de sábanas de datos del SIEDCO (Sistema de Información Estadístico, Delincuencial Contravencional y Operativo) de la Policía Nacional de Colombia, recupera la información y la retorna al usuario en forma de gráfico o dataframe, todo lo anterior en una interfaz gráfica sencilla de Streamlit. La aplicación web muestra buenos resultados en general y tiempos de inferencia razonables, con fallos de interpretación ocasionales, permitiendo consultar de una forma interactiva esta información coyuntural de interés general.
  • Ítem
    Desarrollo de un modelo de machine learning para la clusterización de clientes con factores de riesgo de lavado de activos y financiación terrorista para una empresa con enfoque económico social
    (2024-12) Benavides Rueda, David Armando; Puentes Morales, Carlos; Benavides Rueda, David Armando [0000-0003-3276-7532]
    Este estudio tiene el objetivo de implementar de técnicas avanzadas de machine learning en el Sistema de Autocontrol y Gestión del Riesgo Integral de Lavado de Activos y Financiación del Terrorismo (SAGRILAFT) en Colombia, enfocándose en el riesgo asociado al factor de riesgo clientes. Según la UIAF, las transacciones vinculadas al lavado de activos y la financiación del terrorismo representan entre el 2% y el 5% del PIB mundial, destacando la importancia de sistemas efectivos para mitigar estos riesgos. Se utilizaron modelos de segmentación no supervisados como K-means, DBScan y Redes Neuronales Kohonen para agrupar a los clientes en clusters homogéneos dentro de cada grupo y heterogéneos entre sí, con el objetivo de identificar patrones de comportamiento que pudieran indicar riesgos de lavado de activos o financiación del terrorismo. El modelo K-means resultó ser el óptimo, con un índice de silueta de 0,2202, un índice Calinski Harabasz de 298,5912 y un índice Davies Bouldin de 1,5194. Posteriormente, se desarrollaron modelos supervisados de clasificación, entre los cuales el Decision Tree mostró una precisión superior al 90%, permitiendo clasificar eficientemente a nuevos clientes y monitorear continuamente a los actuales. Los resultados obtenidos cumplen con los estándares regulatorios del SAGRILAFT y proporcionan una herramienta robusta para mitigar los riesgos financieros asociados a actividades ilícitas.
  • Ítem
    Desarrollo de modelos de machine learning para clasificación binaria de calidad y eliminación de ruido en muestras de Papanicolau
    (2024-12) Forero Guevara, Diana Lorena; Nuñez Tovar, Heidy Vanessa; Puentes Morales, Carlos
    La subjetividad y la agilidad en la revisión y clasificación de calidad de imágenes de citología cervical representa un desafío importante debido al criterio individual del observador, así como al alto volumen de muestras que requieren análisis. El proyecto tiene como objetivo desarrollar dos modelos de machine learning; el primero es un modelo de clasificación que categoriza las muestras digitalizadas como satisfactorias o insatisfactorias, se compararon las arquitecturas MobileNet, VGG16 y Resnet50, arrojando mejores resultados con esta última, llegando a una sensibilidad de 0.93 las muestras insatisfactorias. El segundo, un modelo de difusión para reducción de ruido donde se utilizó una arquitectura UNet con bloques ResNet, evaluado para imágenes sin ruido y con ruido agregado, y se aplicó una máscara de enfoque alcanzando métricas de PSNR y SSIM de 36 dB y 0.92 en imágenes sin ruido, y 31 dB y 0.72 en imágenes con ruido. La implementación de estos modelos funciona como un primer paso en la clasificación binaria de calidad de imágenes citológicas, y en el mejoramiento de la calidad inicial de las imágenes.
  • Ítem
    Banana Scan: Aplicación Android para la detección de enfermedades en cultivos de banano mediante TinyML
    (2024-12) Zabala Contreras, Jairo Jose; Hortua Orjuela, Hector Javier
    Este estudio presenta Banana Scan, un sistema de detección de enfermedades basado en técnicas de deep learning y optimizado para dispositivos móviles mediante TinyML. La investigación se centró en la identificación automatizada de dos patologías principales: Black Sigatoka (Mycosphaerella fijiensis) y Moko (Ralstonia solanacearum), utilizando una arquitectura MobileNetV2 modificada. El sistema fue entrenado con un dataset curado de 948 imágenes de campo, incluyendo 303 casos de Black Sigatoka, 335 de Moko, 310 muestras de hojas sanas y 184 imágenes de control. La metodología incorporó técnicas de transfer learning y optimización post-entrenamiento, resultando en un modelo compacto de 8.8MB. El sistema alcanzó una precisión global del 94.47% en el conjunto de prueba, con sensibilidades específicas del 92.1% para Black Sigatoka y 97.0% para Moko, manteniendo tiempos de inferencia promedio de 150ms en dispositivos móviles estándar. La implementación en una aplicación Android demostró su viabilidad para uso en campo, con un consumo de memoria de 120-150MB y capacidad de operación sin conexión. Estos resultados sugieren que la integración de TinyML con dispositivos móviles representa una solución viable para la detección temprana de enfermedades en cultivos de banano, especialmente en regiones con recursos limitados. La aplicación puede ser descargada vía Google Play Store, y el Proyecto se puede encontrar en GitHub.
  • Ítem
    Análisis estadístico de encuestas de estilos de vida y aspectos médicos en personas mayores de Neiva y Putumayo en el periodo 2019-2021
    (2024-12) Contreras Cárdenas, Miguel Angel; Martínez Lobo, Danny Samuel
    Este estudio analizó la encuesta que mide variables de estilos de vida y aspectos médicos en adultos mayores de Putumayo y Neiva, Colombia. El estudio se basó en un conjunto de datos IMABIS CODIFICADO del 20 de junio de 2024 y su objetivo fue determinar la relación que existe entre las variables de salud (Aspectos médicos) y consumo de sustancias psicoactivas (Estilos de vida) en adultos mayores en el periodo 2019-2021. Para ello, se utilizaron las técnicas de análisis de correlación canónica (ACC) y análisis de correspondencias (Clustering). Los resultados muestran la existencia de relaciones significativas entre estos grupos de variables, como también la clasificación de los adultos mayores en diferentes perfiles de atención médica a lo largo del período de estudio.
  • Ítem
    Modelado predictivo en Triage mediante el uso de la regresión logística ordinal: un estudio utilizando la base de datos MIMIC-IV-ED
    (2024-12) Becerra Pabón, Daniel; Martinez Lobo, Danny Samuel; Martinez Lobo, Danny Samuel; 0000-0003-2096-167X; 0009-0008-4470-5658
    El triage es un proceso crítico en la atención de emergencias, que se realiza mediante un proceso interdisciplinario, mediante el cual se determina el tiempo de atención de un paciente en función de signos y síntomas a través dela aplicación de un algoritmo. Este estudio busca desarrollar un modelo predictivo para la clasificación en triage utilizando regresión logística ordinal, utilizando los datos clínicos extraídos de la base de datos MIMIC-IV ED, que contiene información de pacientes en urgencias de una institución estadounidense recopilada entre el 2008 y el 2019. El modelo alcanzó una precisión del 65.76%, con un rendimiento adecuado en la predicción de las categorías más comunes. Las variables cuantitativas, especialmente los signos vitales, demostraron un impacto significativo en la clasificación, al igual que una variable de texto libre incluida como predictora. Los resultados sugieren que la implementación de modelos de regresión logística ordinal en entornos de triage podría mejorar la precisión en la clasificación de pacientes, facilitando la toma de decisiones clínicas y educiendo la probabilidad de errores en un entorno crítico como el servicio de urgencias.
  • Ítem
    Clasificador de anomalías contables en operaciones de factoring financiero mediante modelos de aprendizaje automático enfocado en la modalidad de descuento de títulos valor
    (2024-02) Ibarra Parada, David Alejandro; Rico López, Andrés Antonio; Camargo Duque, Gustavo Andrés; Puentes Morales, Carlos Alberto
    En este artículo se desarrolló un estudio detallado para identificar, analizar y clasificar anomalías contables para una Entidad Financiera la cual tiene un área encargada de los productos Factoring. Esta empresa tiene diferentes áreas funcionales, como finanzas, recursos humanos, producción, entre otras y cada una de ellas tiene registros contables específicos y distintos patrones de comportamiento. Detectar, analizar y clasificar estas diferencias fue un desafío, pero también ofreció conocimientos fundamentales para la administración financiera y la toma de decisiones estratégicas. El enfoque propuesto de la investigación fue aplicar algoritmos de aprendizaje supervisado, como clasificación y regresión, junto con algoritmos de Machine Learning, como árboles de decisión, SVM (Support Vector Machines), o redes neuronales, los cuales sirvieron para entrenar un modelo que identificó patrones en los datos contables y detectó diferencias entre oficinas de la empresa. Se utilizaron datos contables de prueba de la entidad financiera del producto Factoring específicamente y se analizaron variables relevantes, como ingresos, gastos, cuentas por cobrar, cuentas por pagar, entre otros, para identificar diferencias significativas. Como se esperaba los resultados de esta investigación al aplicarse en la práctica mejoraron la gestión financiera y contable de la entidad, puesto que permitió identificar áreas que necesitan mejoras en términos de registros contables y facilitó la toma de decisiones. Además, este estudio posiblemente es de interés para investigadores y profesionales interesados en el área de la contabilidad y el análisis financiero.
  • Ítem
    Análisis correlacional entre las condiciones sociales y demográficas y la probabilidad de estar empleado en jóvenes que pertenecen a la fuerza de trabajo en Colombia a través de la GEIH
    (2024-06-22) Pinzón Cortés, Wilson Andrés; Pacheco López, Mario José
    Este estudio analiza la relación entre ciertas condiciones sociales y demográficas y la probabilidad que un joven que pertenece a la fuerza laboral tenga un trabajo remunerado. Se utilizó un conjunto de datos de la GEIH y se aplicaron técnicas de Muestreo Probabilístico y Machine Learning. Los resultados muestran que el sexo, el nivel educativo, el estrato socio económico y el departamento de residencia son variables que tienen una relación con la probabilidad de empleo. Estos hallazgos pretenden dar un punto de vista sobre aquellos factores sociales que impactan el empleo juvenil en Colombia.
  • Ítem
    Aplicación de procesamiento digital a imágenes de baja resolución para mejorar la detección del cáncer de mama mediante redes neuronales
    (2024-06) Patiño Callejas, Juan Sebastian; Duitama Leal, Alejandro
    El Carcinoma Ductal Invasivo (CDI) es una de las principales causas de morbilidad y mortalidad en mujeres, representando entre el 70 % y el 80 % de los casos de cáncer de mama. La detección inicial de este tipo de cáncer se realiza mediante mamografías. Cuando estas imágenes sugieren la presencia de una anomalía, se procede a un diagnóstico más preciso a través de biopsias. Los diagnósticos se basan en imágenes histológicas de alta resolución disponibles en centros especializados ubicados en grandes ciudades, lo que limita su acceso en regiones remotas. Además, su interpretación requiere la experiencia del radiólogo y patólogo, lo que puede resultar en una alta tasa de falsos positivos. Esto conlleva a exámenes adicionales que pueden ser invasivos, incrementando el estrés de los pacientes y los costos del sistema de salud. Para abordar esta limitación, se investigó la implementación de técnicas de procesamiento digital en imágenes histológicas de baja resolución utilizando redes neuronales para la detección del cáncer de mama. Se presenta un modelo que emplea imágenes de baja resolución (50x50 píxeles y 72 ppi) y redes neuronales convolucionales (CNN). Durante la investigación se exploraron diversas técnicas de procesamiento de imágenes basadas en color, bordes y umbrales.
  • Ítem
    Optimización del análisis de noticias en el sector turismo en Colombia: Aplicación de modelos de lenguaje de gran tamaño para decisiones estratégicas (2023-2024)
    (2024-06) Romero Quiroga, Angie Lorena; Rodriguez Moreno, Michael Smith; Hortua Orjuela, Hector Javier; Romero Quiroga, Angie Lorena [0009-0005-5363-4159]
    El turismo en Colombia ha experimentado un notable crecimiento a lo largo de los años, impulsado por las tendencias y destinos populares que atraen a viajeros de todo el mundo. Este dinamismo ha generado un volumen creciente de información, lo que ha suscitado la necesidad de desarrollar un modelo clasificador para identificar el tono positivo o negativo de las noticias de medios de prensa. Utilizando los avances en Deep Learning y el Procesamiento del Lenguaje Natural, se implementó un modelo de clasificación de texto basado en Modelos de Lenguaje de Gran Tamaño (LLM).Para este trabajo, se seleccionaron varios modelos LLM preentrenados de propósito general, optimizados mediante fine tuning de parámetros eficientes (PEFT) usando los adaptadores LoRA, AdaLoRA y IA3. Toda la configuración se hizo en el entorno de Ludwig, reconocido por su eficiencia y fácil configuración a través de YAML. Se encontró que DistilBERT multilingüe logró el mayor rendimiento con el adaptador LoRA, con una accuracy del 87.88% y un ROC AUC del 92.05%. Este enfoque ha permitido una afinación efectiva del modelo para clasificar noticias dentro del ámbito turístico colombiano, un paso crucial para gestionar y analizar grandes volúmenes de datos de manera ágil y optimizada.