Estadística

URI permanente para esta colección

https://hdl.handle.net/20.500.12495/155

Examinar

Mostrando 1 - 18 de 18

Análisis de clustering para la segmentación del mercado: un caso de estudio de una aplicación de una bebida alcohólica en las principales ciudades de Colombia
(2023) Mariño Santos, Cynthia; Pérez Pérez, Lincoln Ernesto
Esta tesis propone el uso de técnicas de clustering para la segmentación de mercado en la industria de bebidas alcohólicas en Colombia. Para ello, se plantea el uso de DBSCAN en combinación con técnicas de reducción de dimensionalidad como UMAP, T-SNE y PCA. El estudio busca identificar patrones entre los consumidores de alcohol, generando información que puede ser útil para el desarrollo de estrategias de mercadeo efectivas y personalizadas. Se realiza la sintonización de técnicas de reducción y se comparan los resultados entre los distintos métodos para llegar a una conclusión.
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
(2023) Bastidas Rodríguez, Angie Lorena; Ramos Montaña, Jesús David
En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.
Aplicación de modelos de conteo y espaciales en el estudio de la presencia de pupas del mosquito Aedes aegypti en el departamento del Cauca, Colombia
(2023) García Rojas, Juan Sebastián; Rodriguez Arango, Emiliano; Ramos Montaña, Jesús David
Los cambios en las condiciones ambientales tienen un impacto directo en el aumento de la cantidad y dispersión de vectores, así como en la incidencia de enfermedades transmitidas por ellos. Estas variaciones están estrechamente relacionadas con el aumento promedio de la temperatura superficial de la Tierra debido al calentamiento global. En el caso específico del mosquito Aedes aegypti, que es el transmisor de enfermedades virales como el dengue, su expansión geográfica aumentaría de forma paralela con el aumento de la temperatura global. Estas enfermedades son un problema de salud pública en Colombia debido al alto número de casos nuevos que se presentan. La prevención de estas enfermedades se centra en el control del mosquito Aedes aegypti, y tradicionalmente se ha utilizado la vigilancia entomológica para este propósito. Sin embargo, se ha observado que esta estrategia puede resultar costosa en términos tanto humanos como económicos. Por lo tanto, hemos propuesto alternativas como los modelos predictivos de estadística clásica y espacial, los cuales permiten explicar el número de pupas del vector. El insumo para la realización de los modelos propuestos correspondió a información recolectada en el año 2017: datos entomológicos, geográficos, climáticos y demográficos de 393 localidades ubicadas en 33 municipios del Cauca, Colombia. Se ajustaron modelos de regresión para datos de conteo en presencia de sobredispersión y cero inflación, y se compararon por medio de medidas de bondad de ajuste, test de hipótesis para prueba de supuestos y parámetros de regresión estimados: regresión lineal generalizado Poisson (GLMP), regresión lineal generalizado binomial negativa (GLMNB), regresión binomial negativo cero inflado (ZINB), modelo de regresión de Hurdle y modelo de regresión de Tweedie. Se encontró que el ZINB es el que mejor modela el número de pupas. Tomando en cuenta que también existe la componente espacial dentro del conjunto de datos, se realizó un análisis de tipo espacial para datos de área georreferenciados con pruebas de hipótesis y se ajustaron modelos espaciales: modelo de error espacial, modelo de retardo espacial, modelo de Durbin y modelo aditivo generalizado espacial. Se concluye que el modelo aditivo generalizado espacial es el que mejor modela el número de pupas teniendo en cuenta la componente espacial.
Algoritmo k-NN para la imputación de valores faltantes tipo MCAR con distintos valores de k vecinos cercanos
(2023) Canchila Rodríguez, Bryan Alejandro; Rodriguez Arango, Emiliano; Canchila Rodríguez, Bryan Alejandro [0000-0002-5553-5761]
El análisis de datos es uno de los temas más importantes hoy en día y para las empresas se ha convertido en un proceso crucial en la toma de decisiones o estrategias de negocios. Uno de los problemas mas habituales en el análisis de datos es la presencia de valores faltantes ya que estos pueden llegar afectar los análisis e interpretaciones del conjunto de datos y los métodos de imputación permiten solucionar estos problemas. El método k-NN es un método de imputación muy conocido por su simplicidad, pero presenta un gran desafío al momento de elegir un valor de k adecuado. Esta investigación propone un algoritmo k-NN de imputación que permite calcular un valor de k diferente para cada valor faltante partiendo del hecho de que es razonable pensar que cada valor faltante puede tener un numero distintos de vecinos cercanos. El algoritmo es comparado con los métodos tradicionales del k-NN para imputación en valores faltantes tipo MCAR obteniendo mejores resultados en el algoritmo propuesto.
Estimación e inferencia de parámetros en un modelo de regresión normal múltiple multivariado mediante el Bootstrap y el Jackknife
(2023) Torres García, Karen Manuela; Pacheco López, Mario José; Torres García, Karen Manuela [0009-0005-0616-7068]
En este proyecto se describe el procedimiento Bootstrap y Jackknife para los modelos lineales múltiples multivariados y se crea una función que estima los parámetros tanto por Bootstrap como por Jackknife. Además, se construyen escenarios de simulación para evaluar el algortimo cuando los datos siguen una distribución normal multivariada. Y por último, se realiza una aplicación de la función donde se comparan las estimaciones obtenidas por mínimos cuadrados ordinales y las dos técnicas de remuestreo.
Desarrollo de un modelo de Machine Learning para la clasificación de tipos de dengue de acuerdo a su nivel de severidad: Un estudio de caso de Bucaramanga, Colombia
(2023) Rojas Sánchez, Juan David; Ramos Montaña, Jesús David; Rojas Sánchez, Juan David [0009-0000-8844-4172]
El dengue en Colombia y en la región representa una importante problemática de salud pública, por las condiciones geográficas y sociales que hay en el país, se presentan focos cíclicos de contagio. Los avances en machine learning (ML) y ciencia de datos para la clasificación de pacientes puede representar una reducción de esfuerzos médicos, económicos y humanos para el tratamiento de la enfermedad. El diagnóstico temprano, ofrece conocimiento y seguimiento de la enfermedad. Los datos obtenidos provienen del municipio de Bucaramanga, Santander, uno de los departamentos más afectados por los brotes de dengue. Para lograr el objetivo de construir un clasificador de tipos de dengue se construyen 4 modelos ML: Regresión Logística Regularizada (RL), Random Forest (RF), Maquina de Soporte Vectorial para Clasificación (SVC) y una propuesta de ensamble de estos tres modelos que toma como meta-clasificador al algoritmo de XGBoost. Los resultados muestran como mejor modelo al modelo ensamblado (AUC = 0.9386, Accuracy = 0.936, F1-Score = 0.947), seguido de la Regresión Logística regularizada por norma L2 (AUC = 0.95, Accuracy = 0.871, F1-Score = 0.895), la Máquina de Soporte de Vectorial - Kernel Radial (AUC = 0.984, Accuracy = 0.857, F1-Score = 0.867) y por último, el Random Forest (AUC = 0.94, Accuracy = 0.833, F1-Score = 0.865). Además se encontró que factores como antecedentes familiares por dengue, dolor abdominal, vomito y diarrea presentan una relación causal con el presentar dengue con signos de alarma.
Una primera aproximación a la construcción de un modelo del afrontamiento de cuidadores primarios de pacientes post Covid-19 que requirieron hospitalización en Apartadó y Bogotá partir de un análisis de ecuaciones estructurales
(2022) Torres Posada, María Paula; Borda Hernandez, Ricardo Alberto
El afrontamiento es definido como los esfuerzos comportamentales y cognitivos que realiza una persona para atender las demandas del ambiente que actúan como un todo para mantener sus procesos vitales y su integridad. Para generar propuestas de intervención que sirvan de apoyo a cuidadores de pacientes que se ven enfrentados a una situación hospitalaria por Covid-19 es necesario identificar y caracterizar el proceso de adaptación de las personas frente a la situación. El presente proyecto tiene como propósito construir un modelo de ecuaciones estructurales con la finalidad de determinar cuáles son, y cómo están compuestos los posibles factores subyacentes que influyen en el nivel de afrontamiento de cuidadores primarios de pacientes post Covid-19 que requirieron hospitalización en Apartadó y Bogotá utilizando la versión corta de la escala de procesamiento de afrontamiento y adaptación propuesta por Callista Roy. Se realiza análisis factorial exploratorio y confirmatorio sobre los resultados del instrumento mediante un estimador de mínimos cuadrados ponderados, se diagnostica el ajuste del modelo y se presenta el sistema de ecuaciones resultante mediante path analysis y de manera matricial. Se interpretan los factores latentes y se especifica un modelo de ecuaciones estructurales para el afrontamiento de los cuidadores.
Opiniones en Twitter sobre la deforestación en el Amazonas del 2010 al 2022: Un análisis de sentimientos con redes neuronales
(2022) Sarmiento González, Angie Caterine; Ramos Montaña, Jesús David
La deforestación en el Amazonas es una de las grandes problemáticas medioambientales de los últimos tiempos, por esta razón es de gran importancia conocer la opinión de las personas frente a este tema, por tal motivo en este trabajo de investigación se decidió realizar un análisis de sentimientos sobre la deforestación en el Amazonas, utilizando como insumo las opiniones publicadas por los usuarios de Twitter hispanohablantes para un periodo de estudio de enero de 2010 a septiembre de 2022. Para la extracción de datos se conectó mediante un API Twitter con Python y se extrajeron 46.596 datos, los cuales pasaron por fase de minería de texto y etiquetados mediante librerías de Python en tres polaridades o sentimientos asociados negativo, neutro y positivo, esta etapa es de gran importancia debido a que al extraer los datos directamente de Twitter no se cuenta con una columna que indique la polaridad asociada a cada tweet. Así mismo se realiza un análisis exploratorio de los datos para detectar posibles patrones en los datos, revelando que es más frecuente encontrar opiniones textuales sobre la deforestación en el Amazonas en la segunda mitad de cada año y en especial en Agosto de 2019 fecha que coincide con los grandes incendios en el Amazonas. Posteriormente se procede a entrenar y validar un modelo de redes neuronales artificiales LSTM Bidireccional, que permita clasificar de la manera más precisa, a través de un enfoque de análisis de sentimientos los tweets extraídos en distintos grados de opinión. El modelo elegido consta de una arquitectura de 4 capas incluyendo una capa de word embedding, una capa LSTM Bidireccional, una capa estándar con función de activación Relu y una capa de salida con función de activación softmax con una neurona por cada polaridad o sentimiento asociado. Al evaluar el modelo con técnicas como la matriz de confusión, el accuracy, la presicion, la sensibilidad, la especificidad, el F1-score y el coeficiente Kappa de Cohen, dichas medidas arrojaron un ajuste superior a 0.8 lo cual indica un muy ajuste de los datos al modelo de redes neuronales LSTM bidirecional propuesto. Demostrando de esta manera que este tipo de redes neuronales al tener memoria a corto y largo plazo son la alternativa ideal para problemas de análisis de secuencialidad en especial textual.
Modelos para la predicción de deserción universitaria de estudiantes de psicología de la Universidad El Bosque
(2022) Torres Acero, Nicolás
Este proyecto busca implementar los modelos de clasificación supervisada Random Forest y XGBoost con el propósito de predecir deserción universitaria de los estudiantes de la carrera de Psicología de la Universidad El Bosque, utilizando información académica, demográfica, socio-económica y de personalidad de los mismos. Dichos modelos serán comparados utilizando diferentes métricas para identificar el modelo con mayor potencia predictiva y así buscar factores de riesgo de deserción universitaria.
¿Existen diferencias estadísticamente significativas en los niveles de sorpresa según el efecto mágico utilizado?
(2022) Colina Hernández, Ian David; Martínez Lobo, Danny Samuel
El objetivo del presente trabajo es establecer un método de medición en el nivel de gusto o disgusto que pueden generar diversos efectos de magia como: desapariciones, transformaciones, transposiciones o penetraciones al momento de ser realizados con cartas o billetes. Para responder al objetivo de esta investigación se propone el método de medición de afectos positivos y negativos (PANAS por sus siglas en inglés), el test se compone de 20 items que describen emociones de carácter positivo o negativo, 10 de ellas positivas y 10 negativas, las cuales pueden ser puntuadas en una escala ordinal tipo likert de 1 a 5 para indicar en qué medida el encuestado acepta que esta emoción se aplique a él, además, se incluyó un item que mide la curiosidad espectador. Los resultados obtenidos del experimento se analizaron mediante modelos lineales generalizados con respuesta tipo poisson para los afectos (positivo y negativo). Para el análisis del item de “curiosidad” se hizo uso de la regresión logística multinomial, esto se debe a que las respuestas de este item son 5 categorías. Tras el análisis de los resultados, se encuentra que no hay diferencias estadísticamente significativas al realizar un efecto de magia de desaparición, transformación, transposición o penetración con cartas o billetes, además, se concluye que lo más importante al momento de realizar un acto de magia es la forma en la que el mago construye la presentación del efecto, y lo interesante que le resulte al espectador.
Propuesta de un modelo de series de tiempo para el pronóstico de ingresos por prestación de servicios en la empresa de operación nacional Falcón Academia de Aviación S.A.S.
(2022) Leguízamo Jordán, Giann Axel; Pacheco López, Mario José
En este trabajo se realizó un ejercicio de pronóstico de la serie de ingresos por prestación del servicio en la empresa de operación nacional Falcón Academia de Aviación S.A.S, y del número de usuarios mensuales en el periodo de 01/2018 a 12/2022. Se consideró inicialmente un análisis de los datos originales para examinar la existencia de un patrón de comportamiento de la serie de tiempo para seleccionar el modelo: (1-B)(1-B^12 ) X_t (⋋)=(1-0.7149B^12 )(1-0.5958B)at para los ingresos y log⁡(⋋_t )=44.9+0.36Υ_(t-1)+5.58e-10Υ_(t-12). Motivo por el cual se tiene como objetivo utilizar el mejor modelo de predicción mensual que se ajuste a la serie original para hacer predicciones. La metodología usada fue Box – Jenkins y Poisson para series de conteo y el modelamiento de la serie de ingresos y número de usuarios, la cual se desarrolló en las siguientes etapas de exploración de la serie, para la identificación del modelo, estimación de los parámetros del modelo, verificación del modelo y finalmente usar el modelo apropiado para el pronóstico, el resultado de la estimación del mejor modelo univariante para la predicción de la serie original, es un modelo SARIMA (0,1,1) (0,1,1) [12] y Poisson.
Asociación del tiempo de hospitalización frente a variables sociodemográficas, clínicas y paraclínicas de pacientes pediátricos con infección por virus Epstein Barr mediante modelos de regresión
(2022) Baquero Sánchez, Jorge Arturo; Pacheco López, Mario José
Recently, some studies are researching the veracity of the American literature, on which the vast majority of medical schools in Latin America are based, with the diagnosis and evolution of diseases in cohorts from different countries. One example is the work of Moreno (2020) which characterizes and differs in certain diagnoses of the disease caused by the Epstein Barr virus, in a pediatric population of a clinic in Bogotá, Colombia, between the years 2015 and 2019. With the previous work, a possible fault in the diagnosis was identified due to these differences with the teaching parameters, which generates inefficiency in the hospitalization times of the patients. Therefore, a comparison of regression models that explain the association of the sociodemographic, clinical and paraclinical variables of the patients with the number of hospitalized days in the studied cohort was carried out. Models were made with a frequentist and Bayesian approach, supported by the selection of variables by Step AIC methods, evaluation of importance by Random Forest, or probability of inclusion for handling overfitting. Variables such as age, presence of myalgia, and thrombocytosis, among others, that explain the hospitalization time of pediatric patients with Epstein Barr virus infection in the studied cohort were identified. After discussing the results obtained, it was concluded that all the variables generated from the different proposed models would be used since, on the one hand, possible shortcomings of some models are complemented with the others and, on the other hand, they will be the basis argued of the following study with a representative sample of the local cohort.
Análisis de conglomerados de variables cualitativas para la caracterización de especies
(2021) Laverde Chunza, Juan Sebastián; Pacheco López, Mario José
El presente trabajo permitió determinar la mejor medida de distancia para variables cualitativas para el agrupamiento de especies biológicas mediante agrupamiento Jerárquico Aglomerativo. El mejor método de agrupamiento Jerárquico seleccionado fue el método de Ward (Ward, 1963), que nos permite calcular la distancia entre grupos para producir dichas agrupaciones. Para realizar las agrupaciones fue necesario contar con las medidas de similaridad Sokal & Sneath, Rogers & Tanimoto, Ochiai y Jaccard las cuales se emplearon en este trabajo. Después de eso, se realizó una validación de los clusters encontrados, lo cual consistió en comparar las medidas de similaridad, empleando los índices de Dunn (Dunn, 1974) y Silhouette (Rousseeuw, 1987).
Análisis de los resultados de las pruebas PISA 2015 en los países de la organización para la cooperación y el desarrollo económico
(2021) Castiblanco Salas, Edwin Jair; Tellez Piñeres, Cristian Fernando
En la actualidad, los países han tomado como referente para medir la calidad, la equidad y la eficiencia de los sistemas escolares estatales al informe de los resultados de las pruebas PISA publicados por la Organización para la Cooperación y el Desarrollo Económico. En un mundo moderno, es importante disponer de información relevante para la toma de decisiones en el sector educativo en los distintos países de la OCDE. Uno de los métodos más usados para encontrar información que explique el logro académico en los estudiantes son los Modelos Lineales Mixtos (MLM). Lo atractivo de estos modelos es que no solo utilizan covariables para explicar la variable respuesta sino también incorporan en el modelo un efecto aleatorio que explica la variabilidad que no es explicada por las covariables. Es por lo anterior que, en el presente trabajo se utilizan dichos modelos para encontrar posibles factores o variables sociodemográficos, económicas, entre otras, que expliquen los resultados obtenidos por los estudiantes en las áreas de Matemáticas, Ciencias y Lectura en las pruebas PISA 2015.
Una aplicación del modelo normal - logístico en estimación de áreas pequeñas para estimar el porcentaje de embarazo adolescente por municipios en el año 2015 en Colombia
(2021) Hurtado Durán, Daniela Carolina; Tellez Piñerez, Cristian Fernando
El embarazo adolescente ese ha convertido en un problema de salud pública, debido a las múltiples consecuencias que este genera para la madre que así mismo repercuten en la sociedad. Colombia es uno de los países con cifras más altas de embarazo adolescente a nivel Latinoamérica. A raíz de esta situación el presente documento se construye a partir de la necesidad de generar datos a un nivel de desagregación municipal que permitan tener un panorama más detallado de la situación actual del país, a partir de los datos de la Encuesta Nacional de Demografía y Salud de 2015. Teniendo en cuenta la utilidad de la estimación en áreas pequeñas en el análisis de datos provenientes de encuestas cuyo alcance no es tan grande, se implementa el modelo Normal - Logístico con enfoque en áreas pequeñas. Como resultado, las estimaciones obtenidas con el modelo Normal - Logístico con estimación en áreas pequeñas (SAE por sus siglas en inglés) son de mejor calidad que las estimaciones directas y generan una información precisa para la toma de decisiones de política pública.
Inferencia bayesiana para la esperanza de la tasa de letalidad acumulada diaria por COVID-19 a nivel mundial para el periodo de enero de 2020 a marzo de 2021
(2021-12-20) Villamizar Lara, José Gabriel; Pacheco López, Mario José
La pandemia del COVID-19 causó estragos en los sistemas de salud a nivel mundial. Durante el periodo de estudio (Enero 2020-Marzo 2021), se confirmaron más de dos millones de defunciones y más de cien millones de contagiados debido a la enfermedad (OPS, 2021). Se buscó cuantificar la gravedad de la pandemia a nivel mundial estimando una tasa de letalidad media acumulada diaria global, haciendo uso de estadística bayesiana. Se realizó una estimación puntual por medio de la de la mediana posterior y se construyeron intervalos de credibilidad del 89%. Se usó la regla de Jeffrey como información a priori y la distribución beta reparametrizada por Ferrari & CribariNeto (2004), fue la distribución probabilidad asumida para los datos. Se encontró que la mediana posterior tuvo su máximo valor el primer día, con un valor del 42% aproximadamente, este fue decayendo de manera acelerada hasta llegar a los 300 días, donde la tasa tiene un valor estable aproximado del 2% el cual se encuentra dentro de un intervalo de credibilidad del 1% al 3%, además se comparo la tasa letalidad observada de diversos países en vías de desarrollo y ya desarrollados, con la mediana posterior, donde se vio que los países desarrollados tuvieron los valores más altos en comparación a los países en vías de desarrollo.
Metodología de segmentación para el SARLAFT
(2020-07-12) Perez Perez, Lincoln Ernesto; Rojas Ormaza, Brayan Ricardo; Pérez Pérez, Lincoln Ernesto [0000-0002-5591-9714]
En este proyecto de graduación se presenta una metodología para segmentar el SARLAFT. Al proponer el algoritmo CLARA para la segmentación y utilizar homals para el tratamiento de datos categóricos, finalmente se ejemplificó la metodología para su uso a nivel práctico, comparándola con las metodologías presentes en las instituciones financieras, especialmente los resultados obtenidos y el tiempo de ejecución.
Una propuesta bayesiana para la estimación de la proporción vía Jackknife en muestreo probabilístico
(2020) Nivia Neira, Tania Vanessa; Tellez Piñerez, Cristian Fernando; Tellez Piñerez, Cristian Fernando [0000-0003-3869-1831]
En este artículo se presenta una propuesta Jackknife Bayesiana para la estimación de la proporción a partir del muestreo con probabilidades desiguales. Vía simulación se encontró que a pesar que el estimador Jackknife bayesiano se somete a varias configuraciones de la distribución a priori de ρ, esta arroja, en su mayoría, menores sesgo en comparación con el estimador Bootstrap Bayesiano propuesto por Tellez Piñerez et al. [2014]. En términos de error estándar, el estimador propuesto en este artículo, tienen buenos comportamientos (errores estándares inferiores al 7 %,que según el DANE [2008], se clasifica como estimaciones precisas). Finalmente, se ejemplifica la metodología para ver el uso a nivel práctico.

Estadística

URI permanente para esta colección

Examinar

Universidad El Bosque

Instalaciones Bogotá

Instalaciones Chía

Examinar

Envíos recientes