Spike and slab: otro método para seleccionar variables

2020-4-7 (Última modificación: 2020-4-7)

Me sorprende ver todavía a gente utilizar técnicas stepwise para la selección de variables en modelos. Sobre todo, existiendo herramientas como elastic net o lasso.

Otra de las técnicas disponibles es la del spike and slab (de la que oí hablar, recuerdo, por primera vez en el artículo de Varian Big Data: New Tricks for Econometrics). Es una técnica de inspiración bayesiana en cuya versión más cruda se imponen sobre las variables del modelo de regresión prioris que son una mezcla de dos distribuciones:

Una degenerada plana (slab)
Una degenerada concentrada en 0 (spike)

En concreto, algo parecido a

cuando a, b y $latex \delta$ tienden a lo que deben. El parámetro $latex \gamma$ (o más concretamente, su distribución a posteriori) determina la probabilidad de que el coeficiente sea 0. Aunque hoy en día se prefiera usar una mezcla de dos normales centradas en cero,

La teoría de la cosa puede aprenderse en artículos como este (más antiguo, más accesible) o este (más moderno, menos fácil de seguir) y la práctica, por doquier en R (p.e., aquí).