Selección de variables con bosques aleatorios

2016-9-6 (Última modificación: 2016-9-6)

Desde el principio de mis tiempos he seleccionado variables relevantes como subproducto de los árboles primero y de los bosques aleatorios después. Cierto que he hecho casi inconfesables incursiones en los métodos stepwise, pero han sido marginales y anecdóticas.

La idea es casi siempre la misma, se haga a mano o con ayuda de paquetes ad hoc: las variables importantes tienden a aparecer en el modelo (o submodelos), las otras no. Todo se reduce a contar y ponderar. Hay que discurrir un poco más cuando se sospecha (o consta) que existen variables altamente correlacionadas.

De todas esas cuestiones se ocupa el paquete VSURF de R, a cuyos usuarios, para que nadie les pueda acusar de ser unos meros pendejillos con wifi (script kiddies), les recomiendo que lean el artículo concomitante.