Selección de variables con bosques aleatorios

Desde el principio de mis tiempos he seleccionado variables relevantes como subproducto de los árboles primero y de los bosques aleatorios después. Cierto que he hecho casi inconfesables incursiones en los métodos stepwise, pero han sido marginales y anecdóticas.

La idea es casi siempre la misma, se haga a mano o con ayuda de paquetes ad hoc: las variables importantes tienden a aparecer en el modelo (o submodelos), las otras no. Todo se reduce a contar y ponderar. Hay que discurrir un poco más cuando se sospecha (o consta) que existen variables altamente correlacionadas.

De todas esas cuestiones se ocupa el paquete VSURF de R, a cuyos usuarios, para que nadie les pueda acusar de ser unos meros pendejillos con wifi (script kiddies), les recomiendo que lean el artículo concomitante.

7 comentarios sobre “Selección de variables con bosques aleatorios

  1. Daniel 6 septiembre, 2016 11:12

    ¿Por qué es importante la selección de variables en los árboles de decisión? Se pueden usar todas como input y que el árbol seleccione las que tiene mayor poder discriminante. No veo la necesidad de hacer una selección previa de variables. Con la velocidad de procesamiento actual no hace falta.

  2. Daniel 6 septiembre, 2016 12:23

    Ah vale. Para usar luego esas variables en otra historia.

  3. Davidi 7 septiembre, 2016 8:28

    …muy rápido no es… lleva 17 horas en paralelo y na de na…

  4. Isidro Hidalgo 7 septiembre, 2016 8:37

    @Davidi: ¿con qué cantidad de datos estás trabajando y en qué máquina? No parece un tiempo «normal»…

  5. Davidi 8 septiembre, 2016 9:57

    No «demasiado» unas 60000 filas por 500 y pico columnas… al final lo paré

  6. Davidi 8 septiembre, 2016 11:49

    … la máquina, la misma en la que corro un montón de xgboost 600k filas por 500 y pico columnas, un i5 2.3Ghz y 16 GB de RAM… 2 cores 4 hilos

Los comentarios están desabilitados.