Maestría Estadística Aplicada y Ciencia de Datos
URI permanente para esta colección
Examinar
Envíos recientes
Ítem Clasificador de anomalías contables en operaciones de factoring financiero mediante modelos de aprendizaje automático enfocado en la modalidad de descuento de títulos valor(2024-02) Ibarra Parada, David Alejandro; Rico López, Andrés Antonio; Camargo Duque, Gustavo Andrés; Puentes Morales, Carlos AlbertoEn este artículo se desarrolló un estudio detallado para identificar, analizar y clasificar anomalías contables para una Entidad Financiera la cual tiene un área encargada de los productos Factoring. Esta empresa tiene diferentes áreas funcionales, como finanzas, recursos humanos, producción, entre otras y cada una de ellas tiene registros contables específicos y distintos patrones de comportamiento. Detectar, analizar y clasificar estas diferencias fue un desafío, pero también ofreció conocimientos fundamentales para la administración financiera y la toma de decisiones estratégicas. El enfoque propuesto de la investigación fue aplicar algoritmos de aprendizaje supervisado, como clasificación y regresión, junto con algoritmos de Machine Learning, como árboles de decisión, SVM (Support Vector Machines), o redes neuronales, los cuales sirvieron para entrenar un modelo que identificó patrones en los datos contables y detectó diferencias entre oficinas de la empresa. Se utilizaron datos contables de prueba de la entidad financiera del producto Factoring específicamente y se analizaron variables relevantes, como ingresos, gastos, cuentas por cobrar, cuentas por pagar, entre otros, para identificar diferencias significativas. Como se esperaba los resultados de esta investigación al aplicarse en la práctica mejoraron la gestión financiera y contable de la entidad, puesto que permitió identificar áreas que necesitan mejoras en términos de registros contables y facilitó la toma de decisiones. Además, este estudio posiblemente es de interés para investigadores y profesionales interesados en el área de la contabilidad y el análisis financiero.Ítem Análisis correlacional entre las condiciones sociales y demográficas y la probabilidad de estar empleado en jóvenes que pertenecen a la fuerza de trabajo en Colombia a través de la GEIH(2024-06-22) Pinzón Cortés, Wilson Andrés; Pacheco López, Mario JoséEste estudio analiza la relación entre ciertas condiciones sociales y demográficas y la probabilidad que un joven que pertenece a la fuerza laboral tenga un trabajo remunerado. Se utilizó un conjunto de datos de la GEIH y se aplicaron técnicas de Muestreo Probabilístico y Machine Learning. Los resultados muestran que el sexo, el nivel educativo, el estrato socio económico y el departamento de residencia son variables que tienen una relación con la probabilidad de empleo. Estos hallazgos pretenden dar un punto de vista sobre aquellos factores sociales que impactan el empleo juvenil en Colombia.Ítem Aplicación de procesamiento digital a imágenes de baja resolución para mejorar la detección del cáncer de mama mediante redes neuronales(2024-06) Patiño Callejas, Juan Sebastian; Duitama Leal, AlejandroEl Carcinoma Ductal Invasivo (CDI) es una de las principales causas de morbilidad y mortalidad en mujeres, representando entre el 70 % y el 80 % de los casos de cáncer de mama. La detección inicial de este tipo de cáncer se realiza mediante mamografías. Cuando estas imágenes sugieren la presencia de una anomalía, se procede a un diagnóstico más preciso a través de biopsias. Los diagnósticos se basan en imágenes histológicas de alta resolución disponibles en centros especializados ubicados en grandes ciudades, lo que limita su acceso en regiones remotas. Además, su interpretación requiere la experiencia del radiólogo y patólogo, lo que puede resultar en una alta tasa de falsos positivos. Esto conlleva a exámenes adicionales que pueden ser invasivos, incrementando el estrés de los pacientes y los costos del sistema de salud. Para abordar esta limitación, se investigó la implementación de técnicas de procesamiento digital en imágenes histológicas de baja resolución utilizando redes neuronales para la detección del cáncer de mama. Se presenta un modelo que emplea imágenes de baja resolución (50x50 píxeles y 72 ppi) y redes neuronales convolucionales (CNN). Durante la investigación se exploraron diversas técnicas de procesamiento de imágenes basadas en color, bordes y umbrales.Ítem Optimización del análisis de noticias en el sector turismo en Colombia: Aplicación de modelos de lenguaje de gran tamaño para decisiones estratégicas (2023-2024)(2024-06) Romero Quiroga, Angie Lorena; Rodriguez Moreno, Michael Smith; Hortua Orjuela, Hector Javier; Romero Quiroga, Angie Lorena [0009-0005-5363-4159]El turismo en Colombia ha experimentado un notable crecimiento a lo largo de los años, impulsado por las tendencias y destinos populares que atraen a viajeros de todo el mundo. Este dinamismo ha generado un volumen creciente de información, lo que ha suscitado la necesidad de desarrollar un modelo clasificador para identificar el tono positivo o negativo de las noticias de medios de prensa. Utilizando los avances en Deep Learning y el Procesamiento del Lenguaje Natural, se implementó un modelo de clasificación de texto basado en Modelos de Lenguaje de Gran Tamaño (LLM).Para este trabajo, se seleccionaron varios modelos LLM preentrenados de propósito general, optimizados mediante fine tuning de parámetros eficientes (PEFT) usando los adaptadores LoRA, AdaLoRA y IA3. Toda la configuración se hizo en el entorno de Ludwig, reconocido por su eficiencia y fácil configuración a través de YAML. Se encontró que DistilBERT multilingüe logró el mayor rendimiento con el adaptador LoRA, con una accuracy del 87.88% y un ROC AUC del 92.05%. Este enfoque ha permitido una afinación efectiva del modelo para clasificar noticias dentro del ámbito turístico colombiano, un paso crucial para gestionar y analizar grandes volúmenes de datos de manera ágil y optimizada.Ítem Modelos de difusión probabilísticos como emuladores en simulaciones de gravedad modificada(2024-06) Saavedra Tafur, Paola Andrea; Riveros Galeano, Julieth Katherine; Hortua Orjuela, Hector JavieEn este trabajo, se usa la aplicación de modelos de difusión probabilística (DDPM) y de eliminación de ruido (DDIM) en la generación de simulaciones de N-cuerpos en modelos de gravedad modificada. Los DDPM añaden ruido de manera controlada a través de una cadena de Markov, donde cada paso de difusión depende exclusivamente del anterior, incrementando gradualmente la indistinción. Por otro lado, los DDIM introducen una mayor flexibilidad al permitir referencias a estados anteriores más distantes en el proceso de difusión. En este documento reportamos que los modelos DDPM proveen un excelente emulador para la generación de las simulaciones cosmológicas a nivel del espectro de potencias y biespectro obteniendo un r2 = 0.8, mientras que los modelos DDIM fallan en la extracción de la normalización. Este enfoque juega un papel importante en cosmología, donde la precisión y la rapidez en la generación de simulaciones son esenciales para la estimación de parámetros y la restricción de modelos de gravedad.Ítem Predicción de la generación de energía eólica en la región de Biobío en Chile utilizando modelos de Machine Learning y Series Temporales(2024-06) Cadena Valencia, Paula Andrea; Muñoz Puga, Julio Alberto; Parada Suarez, William Rodrigo; Cubillos, AlfonsoChile avanza en la transición hacia energías renovables y la transformación de su matriz energética. Este estudio predice la generación diaria de energía eólica en 15 centrales de la región del Biobío usando modelos de aprendizaje automático (ETR y XGBoost), redes LSTM y series temporales (SARIMAX). Los modelos se entrenan con tres años de datos históricos, incluyendo variables meteorológicas. Se compara el rendimiento de los modelos con métricas como MAE y RMSE para determinar el más preciso. Los resultados buscan mejorar las decisiones en el mercado de energía, optimizando la gestión de recursos.Ítem Generador de tweets del presidente Gustavo Petro bajo una perspectiva del procesamiento natural de lenguaje y los modelos de Markov(2024-06) Barón Gómez, Enrique; Rodríguez Arango, Emiliano; Barón Gómez, Enrique [0009-0001-0840-7361]El propósito de este artículo consiste en generar tweets que simulan el estilo y los temas abordados por Gustavo Petro durante su primer año de mandato presidencial. Para este cometido, se creó un modelo de Markov de segundo orden que utiliza bi-gramas para generar tweets, es decir, que la siguiente palabra del tweet generado está sujeta a las probabilidades de las dos palabras anteriores y al diccionario de palabras únicas con las que se entrenó el modelo. Así pues, el generador de texto es entrenado con los tweets escritos por Gustavo Petro en el periodo 2022-08-07 a 2023-08-07 y va a ser evaluado con distintos clasificadores binarios para poder encontrar el mejor modelo que permita detectar, con cierto grado de confianza, un tweet real del presidente. De esta manera, la metodología propuesta utiliza técnicas y algoritmos del Procesamiento Natural de Lenguaje (NLP) y de machine learning para construir una herramienta más confiable que la percepción o subjetividad, que tiene una persona, al leer un tweet y tratar de reconocer su veracidad.Ítem Predicción del efecto inóculo a Cefazolina en Staphylococcus Aureus susceptible a Meticilina por un método de aprendizaje automático(2024-06) Martín López, Zaidy Ocnary; Quiroga Calderon, Cesar Hobany; Reyes Manrique, Lynda Jehny; Bermudez Munar, Jose Alejandro; Duitama Leal, Alejandro; Reyes Manrique, Jinnethe CristinaLa resistencia a antibióticos constituye un desafío de importancia clínica, no solo en términos de tratamiento biológico y terapéutico de las infecciones, sino también debido a su impacto en la salud pública (1). El Staphylococcus aureus, es un agente bacteriano común en el microbioma humano. Sin embargo, tambiénocasiona gran variedad de entidades infecciosas, incluyendo, bacteriemia, endocarditis, así como infecciones osteoarticulares, cutáneas, de tejidos blandos, pleuropulmonares y relacionadas con dispositivos (2). La incidencia de bacteriemia por Staphylococcus aureus (SAB) en Estados Unidos oscila entre 20 y 50 casos por cada 100.000 habitantes al año, con una tasa de mortalidad entre el 10% y el 30%, superando en número de muertes combinadas al VIH/SIDA, la tuberculosis y la hepatitis viral, lo que representa un considerable costo en términos de salud pública (3,4). La Sociedad Americana de Enfermedades Infecciosas (IDSA) recomienda los antibióticos betalactámicos como tratamiento fundamental para infecciones causadas por Staphylococcus aureus susceptible a meticilina (SASM) (5,6). La cefazolina se ha convertido en una excelente alternativa de tratamiento por sus bajos efectos adversos y su costo (6). Sin embargo, ha surgido un fenómeno de resistencia conocido como el efecto inóculo a cefazolina (CzIE), asociado a la producción de la betalactamasa (BlaZ) (7), lo que plantea la necesidad de explorar alternativas terapéuticas. El uso de técnicas de aprendizaje automático (Machine Learning - ML) se presenta como una vía prometedora para evaluar la capacidad predictiva de modelos en este contexto, lo que podría tener implicaciones significativas en la práctica médica, permitiendo el uso adecuado de la cefazolina y por ende optimizando la toma de decisiones para el tratamiento antibiótico.Ítem Mapeo de la controversia Hamás-Israel: Procesamiento de lenguaje natural y redes de actores a partir de comentarios en YouTube(2024-06) Hernandez Lopez, Victor Manuel; Cuellar Cuellar, Jaime Eduardo; Hernandez Lopez, Victor Manuel [0000-0003-2631-4350]El presente artículo media entre el mapeo de controversias realizado por las ciencias sociales y el análisis de controversias en red realizado desde las ciencias computacionales y estadísticas. Se aborda el conflicto Hamás-Israel desde una perspectiva crítica, analizando comentarios en español realizados en vídeos de principalmente de medios informativos en YouTube. Para su análisis, se estructuran siete categorías que definen el contenido de dichos comentarios. La categorización fue realizada automáticamente a través de un método de clasificación supervisado con “Bidirectional Encoder Representations from Transformers” (BERT) programado en Python. Los 253.925 comentarios clasificados fueron analizados en su contexto y dispuesto como red de entidades en Gephi a partir de un mapeo de actores. Este artículo se propone como una investigación exploratoria de la controversia Hamás e Israel de comentarios en español entre octubre de 2023 y enero del 2024, además de una nueva apuesta metodológica en estudios de ciencia y tecnología.Ítem Segmentación de los casos de vulneración de derechos humanos reportados a la Personería Municipal de Pereira-Colombia (2020-2023)(2024-06) Leon Pineda, Yissela Alejandra; Arce Mora, Miguel Ángel; Pacheco López, Mario JoséLos reportes de casos de vulneración de derechos humanos continúan en aumento en la sociedad colombiana, aún cuando se han construido mecanismos de garantía como la acción de tutela o la presencia de entidades que velan por su cumplimiento, como las Personerías Municipales. El presente estudio realiza una segmentación de los reportes de vulneración de derechos humanos presentados a la Personería Municipal de Pereira en el periodo del 2020 a 2023 con el objetivo de brindar recursos para la toma de decisiones y la generación de líneas de acción. Posterior a la evaluación de varios métodos, se ejecutó un algoritmo de agrupamiento no jerárquico denominado K-Modas. Se obtuvieron 3 grupos, o clústeres, donde predominaron los requerimientos efectuados por mujeres, en cuanto a tramites asociados al derecho a la salud y la vinculación de las entidades públicas a los procesos de vigilancia. La segmentación de la información permite a la entidad focalizar los esfuerzos en la población más vulnerable para proveer estrategias efectivas en su misión de proteger los derechos de la sociedad.Ítem Modelo Predictivo de Machine Learning para la Detección de Enfermedad Diarreica Aguda en Pacientes con Trasplante Renal en Colombia(2023) Castañeda Silva, Liceth Viviana; Puentes Morales, Carlos; Castañeda Silva, Liceth Viviana [0009-0000-3292-7108]En este artículo, se realizó un estudio detallado para predecir la enfermedad diarreica aguda en pacientes con trasplante renal utilizando modelos de aprendizaje automático. Se examinaron cuatro modelos diferentes, entre los cuales se incluyen regresión logística, redes neuronales, máquinas de soporte vectorial (SVM) y árboles de decisión. Se utilizaron procesos de validación cruzada, con una técnica de sobre muestreo alto para corregir los desequilibrios en el conjunto de datos de la clase objetivo que fue la minoritaria. Los resultados indican que las redes neuronales y los árboles de decisión se destacan como los modelos con las mejores métricas, demostrando una alta precisión y capacidad de predicción. La regresión logística y SVM también dan resultados válidos, pero su dominio predictivo es más limitado. Estos resultados brindan indicaciones consistentes para futuras implementaciones médicas en la predicción de la enfermedad diarreica aguda en pacientes con trasplante renal, previa realización de validaciones utilizando datos nuevos y externos para comprobar la generalización del modelo.Ítem Reganancia de peso, control de comorbilidades y resultados metabólicos después de cirugía bariátrica: un estudio de seguimiento de 5 años en Bogotá, Colombia(2023) Mendivelso Duarte, Fredy Orlando; Borda Hernández, Ricardo Alberto; Borda Hernández, Ricardo Alberto; Mendivelso Duarte, Fredy Orlando [https://orcid.org/0000-0002-2194-0910]; Borda Hernández, Ricardo Alberto[https://orcid.org/0009-0006-7011-5833]Introducción. La cirugía bariátrica y metabólica (CBM) ha demostrado su eficacia en lograr pérdida de peso y mejorar las comorbilidades a corto plazo. Existe evidencia limitada con respecto a los desenlaces clínicos y metabólicos a largo plazo, particularmente en población Colombiana. Materiales y métodos. Se diseñó un estudio longitudinal retrospectivo de datos panel con pacientes llevados a CBM en Bogotá (Colombia) entre 2013 y 2021. La intervención fue Bypass Gástrico en Y de Roux (RYGB) y Gastrectomía en Manga (SG) por laparoscopia. Datos sobre cambios de peso, control de comorbilidades (diabetes tipo 2, hipertensión y dislipidemia) y resultados metabólicos (HbA1c, glucosa y perfil lipídico) se recopilaron al inicio del estudio, 3, 6 y 12 meses después de la cirugía, y anualmente hasta el quinto año. Las tasas de control de comorbilidades se evaluaron mediante la prueba Kaplan-Meier. Se utilizó un modelo de riesgos proporcionales de Cox para evaluar el efecto de covariables de importancia clínica y quirúrgica en la reganancia de peso. Resultados. Los 1092 pacientes con CBM (71,4 % MG y 28,6% RYGB) tenían una mediana de edad 48 años, IMC 35,5 Kg/m2 y 67% eran mujeres. Después de cinco años de seguimiento, la tasa de control en diabetes mellitus fue 65,5%, hipertensión 56,6% y dislipidemia 43,6%. La tasa de reganancia de peso fue 28% sin diferencias entre MG vs RYGB (p-valor 0,482). El tiempo promedio hasta peso Nadir fue 14 meses. La edad al momento de CBM fue el mejor predictor independiente de reganancia (HR=1,02, IC95%; 1,01-1,04), pero con efecto clínico modesto. Conclusión. Estos resultados proporcionan evidencia adicional de la asociación beneficiosa entre la cirugía y la pérdida de peso a largo plazo. En pacientes obesos con DM, la CBM muestra un efecto modificador de la enfermedad.Ítem Perfil de estancia hospitalaria en una unidad de cuidado intensivo de recién nacidos y sus factores relacionados en un hospital en la ciudad de Bogotá.(2023) Andrade Fonseca, David; Pacheco Lopez, Mario Jose; 0000-0002-7233-9041Introducción: La estancia prolongada es un problema para las instituciones prestadoras de servicios de salud, puesto impacta negativamente en el acceso de nuevos pacientes, la eficiencia y la calidad de la atención por su relación con complicaciones, eventos adversos y mortalidad donde la población neonatal es altamente susceptible de ingresar a los servicios de salud. Objetivo: Identificar los factores neonatales asociados a la estancia hospitalaria en una unidad de cuidado intensivo neonatal de un hospital de IV nivel de complejidad de Bogotá Colombia,Metodología:estudio de cohorte histórica donde se incluyeron 1138 recién nacidos entre los años 2019 a 2022. Se ajustaron tres modelos lineales generalizados dos tipo poisson para la recién nacidos en general, otro para los recién nacidos a término y un modelo binomial negativo para los recién nacidos prematuros y por último se realizó un análisis de Kaplan Meier para determinar la probabilidad de supervivencia en relación a la mortalidad en los prematuros Resultados: La mayoría de la población de estudio fueron recién nacidos a término (después de la semana 37 de gestación) 53,3%- La mediana de estancia en la unidad de cuidado intensivo neonatal fue de 5 días en la población general, en los prematuros fue de 7 días y en los bebés a término fue de 4 días, dentro de las variables asociadas a la estancia se evidenció el peso del recién nacido, la edad gestacional, enfermedades respiratorias y uso de dispositivos médicos. En cuanto a la supervivencia los prematuros extremos presentaron una mediana de 9 días. Conclusión: factores intrínsecos de patologías respiratorias, características clínicas del nacimiento como el peso y la edad gestacional, así como el uso de dispositivos médicos se relacionaron con la duración de la estancia en una unidad de cuidado intensivo neonatal y el hecho de ser prematuro extremo disminuye la probabilidad de supervivencia entre los prematuros.