ranger (o cómo el truco para hacerlo rápido es hacerlo, subrepticiamente, mal)

ranger llegó para hacerlo mismo que randomForest, solo que más deprisa y usando menos memoria.

Lo que no nos contaron es que lo consiguió haciendo trampas. En particular, en el tratamiento de las variables categóricas. Si no andas con cuidado, las considera ordenadas (y ordenadas alfabéticamente).

[Si te da igual ocho que ochenta, no te preocupará el asunto. Tranquilo: hay muchos como tú.]

El diagnóstico dado (por eso lo omito) está contado aquí. La solución, a pesar de la aparente pretensión de los autores, no.

2 comentarios sobre “ranger (o cómo el truco para hacerlo rápido es hacerlo, subrepticiamente, mal)

  1. Rodrigo 29 septiembre, 2019 19:44

    Eso está corregido desde la v0.4.5 (circa Junio 2016).
    Pero vamos, que a mi me da igual 8 que 80.

  2. Carlos J. Gil Bellosta 2 octubre, 2019 1:44

    Bueno, que esté corregido o no es cuestión de interpretación. Hoy en día (versión 0.11.2) sigue haciéndolo como cuento si no vas con cuidado (de ahí el término «subrepticio») y cambias el funcionamiento utilizando unas opciones arcanas y vagamente documentadas. De hecho, el comportamiento por defecto de ranger es hacer las cosas atrozmente. Por eso que no diría que el problema está «corregido».
    Apuesto lo que quieras a que el usuario esporádico y poco sofisticado «cae».

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.