Estimación de Pseudo Odds Ratios ajustados mediante bootstrap e índices lifts en un modelo no paramétrico de machine learning para clasificación
Cargando...
Archivos
Fecha
2024-11
Autores
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Esta investigación se centra en el desarrollo de un algoritmo para estimar los Pseudo Odds Ratios (ORs) ajustados en modelos no paramétricos de clasificación supervisada de Machine Learning. Se empleó el método bootstrap y los índices lift. En el proceso se diseñaron 12 etapas, comenzando con la optimización de parámetros para cada modelo no paramétrico (Decision Tree Classifier (CART), Support Vector Classifier (SVC), Naive Bayes (NB)), evaluados con métricas como accuracy, specificity y recall. Por ejemplo, los valores de accuracy oscilaron entre 0.75 y 0.79. Las estimaciones se basaron en las probabilidades de las variables X y Y junto con los índices lift. Los resultados mostraron que el modelo NB ofreció el mejor rendimiento en cuanto a distribuciones y correlaciones, evidenciando una tendencia lineal en los gráficos de dispersión. Esta linealidad facilitó la transformación de los ORs para cada modelo, utilizando los Odds Ratios del modelo regresión logístico como variable dependiente y los OR_s como variable independiente, lo que permitió obtener estimaciones consistentes, como X1=0.38, tanto para el modelo paramétrico como para los no paramétricos. Las interpretaciones se validaron con intervalos de confianza al 95%, construidos a partir de muestras bootstrap, las cuales también permitieron el cálculo de diversos resúmenes estadísticos. Por ejemplo, para la variable X1, se obtuvieron intervalos de confianza de [0.266, 0.541] en regresión logística y [0.369, 0.411] en NB.
Descripción
Abstract
This research focuses on developing an algorithm to estimate adjusted Pseudo Odds Ratios (ORs) in non-parametric supervised classification models using Machine Learning. The bootstrap method and lift indices were employed. The process involved the design of 12 stages, starting with parameter optimization for each non-parametric model (Decision Tree Classifier (CART), Support Vector Classifier (SVC), Naive Bayes (NB)), evaluated with metrics such as accuracy, specificity, and recall. For instance, accuracy values ranged from 0.75 to 0.79. Estimates were based on the probabilities of the X and Y variables along with lift indices. Results showed that the NB model offered the best performance in terms of distributions and correlations, demonstrating a linear trend in the scatter plots. This linearity facilitated the transformation of ORs for each model, using the Odds Ratios from the logistic regression model as the dependent variable and OR_s as the independent variable, allowing for consistent estimates, such as X1 = 0.38, for both parametric and non-parametric models. Interpretations were validated with 95% confidence intervals, built from bootstrap samples, which also enabled the calculation of various statistical summaries. For example, for the variable X1, confidence intervals of [0.266, 0.541] were obtained in logistic regression, and [0.369, 0.411] in NB.
Palabras clave
Odds ratios, Bootstrap, Lift, Modelos no paramétricos, Clasificación supervisada, Medidad de asociación, Machine learning interpretable
Keywords
Odds ratios, Bootstrap, Lift, Non-parametric models, Supervised classification, Measures of association, Interpretable machine learning