Contrariamente a lo que creía recordar, «Hot deck» != LOCF

Imputación (que es algo en lo que muy a regañadientes estoy trabajando estos días).

Si de verdad tienes que imputar datos en una tabla (y solo en ese caso), solo hay un criterio: construye un modelo para predecir los valores faltantes en función del resto y reemplaza el NA por la su predicción.

El modelo puede ser tan tonto como

lm(my_col ~ 1, na.rm = T)

que resulta en la popular estrategia de reemplazar los NAs por la media del resto de las observaciones. Cambiando lm por otras cosas funciones más molonas y la fórmula por otras más complejas en que intervengan otras columnas se obtienen métodos más potentes. Se pueden usar GAMs (como en mtsdi) o random forests (como en missForest), pero la idea está clara. Es solo la naturaleza del problema la que nos invita a decantarnos por una u otra opción.

[Nota: las técnicas de imputación basadas en descomposiciones matriciales, como esta, no encajan exactamente en la formulación que expongo en el párrafo anterior, al menos en el aspecto formal. Pero creo que sí en el sustancial: en el fondo, postulan cierta estructura en los datos y la explotan para realizar las correspondientes imputaciones.]

Pero el abuelo de todas las técnicas de imputación es HDI (hot deck imputation), cuya versión original y más conocida es LOCF (last observation carried forward). Esta última consistía en completar el dato faltante en una ficha (o tarjeta) con el de la ficha anterior. Recuérdese que estamos hablando de cuando

En el fondo, incluso LOCF tiene un modelo subyacente: tarjetas físicamente próximas en un lote podrían tener procedencias similares; p.e., de familias que residen en un mismo bloque o pacientes tratados por un mismo doctor.

En el fondo, una especie de 1-vecinos (k-vecinos con k = 1) junto con una heruística simple para estimar el vecino más próximo.

Por lo que he averiguado, bajo el nombre HDI, ya no se entiende LOCF sino, más bien, lo que comento más arriba (modelo + predicción) usando k-vecinos propiamente dichos (véase esto y sus referencias).

Un comentario sobre “Contrariamente a lo que creía recordar, «Hot deck» != LOCF

  1. Jose Luis Cañadas Reche 3 septiembre, 2020 22:37

    Ainss. Mis tiempos cuando hacía imputación múltiple con mice, siguiendo las reglas de Rubin

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.