Algoritmo k-NN para la imputación de valores faltantes tipo MCAR con distintos valores de k vecinos cercanos

Resumen

El análisis de datos es uno de los temas más importantes hoy en día y para las empresas se ha convertido en un proceso crucial en la toma de decisiones o estrategias de negocios. Uno de los problemas mas habituales en el análisis de datos es la presencia de valores faltantes ya que estos pueden llegar afectar los análisis e interpretaciones del conjunto de datos y los métodos de imputación permiten solucionar estos problemas. El método k-NN es un método de imputación muy conocido por su simplicidad, pero presenta un gran desafío al momento de elegir un valor de k adecuado. Esta investigación propone un algoritmo k-NN de imputación que permite calcular un valor de k diferente para cada valor faltante partiendo del hecho de que es razonable pensar que cada valor faltante puede tener un numero distintos de vecinos cercanos. El algoritmo es comparado con los métodos tradicionales del k-NN para imputación en valores faltantes tipo MCAR obteniendo mejores resultados en el algoritmo propuesto.

Descripción

Abstract

Data analysis is one of the most important topics nowadays and for companies it has become a crucial process in decision making or business strategies. One of the most common problems in data analysis is the presence of missing values that can affect the analysis and interpretation of the data set and imputation methods can solve these problems. The k-NN method is a well-known imputation method because of its simplicity, but it presents a great challenge when choosing a suitable k value. This research proposes a k-NN imputation algorithm that allows to compute a different value of k for each missing value based on the fact that it is reasonable to think that each missing value can have a different number of nearest neighbors. The algorithm is compared with the traditional k-NN methods for MCAR type missing value imputation obtaining better results in the proposed algorithm.

Palabras clave

Imputación k-NN

Keywords

Imputation k-NN

Temáticas

Citación

Colecciones