Árboles De Decisión

I. Cuando éramos críos e íbamos al colegio, todos hemos participado en conversaciones que discurrían más o menos así: — Quiero ver el programa X. — No puedes porque A, B y C. — Pero Fulanito lo ve todos los días. — No te fijes en lo que hace el más tonto; fíjate en lo que hace el más listo. Los primeros buscadores de internet eran catastróficos. Un día apareció uno nuevo, Google, con una filosofía de madre de los setenta: fijarse en lo que hacía el más listo, no el más tonto.

Sin embargo, basta con mirar la foto leer la entrada de hace unos días, que se refiere a algo muy parecido (y que, en particular, describe los datos usados en el modelo que representa) y, en el peor de los casos, esto, para hacerse idea de su utilidad y relevancia.

Hay una entrada mía, esta, que me ronda la cabeza y con la que no sé si estoy completamente de acuerdo. Trata de justificar la codificación por impacto de variables categóricas en modelos lineales (generalizados o no) y cuanto más la releo, menos me la creo. O, más bien, comienzo a cuestinarme más seriamente contextos en los que funciona y contextos en los que no. Pero comencemos por uno simple: los árboles.

Siempre (aténganse los puristas al contexto) recomiendo comenzar con un árbol de decisión para, sobre esa base, ensayar métodos más potentes. Sobre todo si la precisión conviene más que la interpretabilidad. En la dirección opuesta se sitúan los árboles rápidos y frugales. Un árbol rápido y frugal es un tipo de árbol de decisión tal como La restricción que satisface (a diferencia de los árboles de decisión más habituales) es que:

La primera entrada de esta bitácora es de enero de 2010. En aquella época, recuerdo, había apartado un artículo sobre categorización de variables continuas, i.e., el proceso de convertir (¿para qué?) una variable continua en categórica de una manera óptima. Aparte de cuestionar el paraqué (¿por qué porqué es sustantivo y paraqué no?) de la cosa me asaltaron dudas sobre el cómo. Si se quiere discretizar, ¿por qué no usar directamente un árbol?

Tengo por delante otro proyecto que tiene mucho de análisis exploratorio de datos. Sospecho que más de un árbol construiré. Los árboles son como la Wikipedia: prácticamente nunca el último pero casi siempre el primer recurso. Esta vez, además, por entretenerme un poco, probaré el paquete [evtree](http://cran.r-project.org/web/packages/evtree/index.html). Aunque no porque espere sorprendentes mejoras con respecto a los tradicionales, ctree y rpart. ¿Qué tiene aquél que los diferencie de los otros dos?

Una de las mayores contrariedades de estar sentado cerca de alguien que es más matemático que un servidor (de Vds., no de silicio) es que oye siempre preguntar por qué. Una letanía de preguntas me condujo a leer papelotes que ahora resumo. Primero, unos datos: set.seed(1234) n <- 100 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) y <- 0.3 + 0.2 * x1 + 0.5 * (x2 > 0) + 0.

Planteas un modelo tal como resp ~ treat y no encuentras diferencia significativa. O incluso puede ser negativa. Globalmente. La pregunta es, con el permiso del Sr. Simpson (o tal vez inspirados por él), ¿existirá alguna región del espacio en la que el tratamiento tiene un efecto beneficioso? Puede que sí. Y de haberla, ¿cómo identificarla? De eso hablo hoy aquí. E incluyo una protorespuesta. Primero, genero datos: n <- 20000 v1 <- sample(0:1, n, replace = T) v2 <- sample(0:1, n, replace = T) v3 <- sample(0:1, n, replace = T) treat <- sample(0:1, n, replace = T) y <- v1 + treat * v1 * v2 y <- exp(y) / (1 + exp(y)) y <- sapply(y, function(x) rbinom(1,1,x)) dat <- data.

Recomiendo leer esto. Es un artículo que repasa la labor de Leo Breiman, pionero en esa nueva forma de plantear el análisis de datos que acabó convirtiéndose en la minería de datos y de algunos de los algoritmos y métodos más comunes que conforman la caja de herramientas de quienes lo practican hoy en día. Entre ellos, los árboles de decisión y de regresión y los random forests. Así comienza el artículo:

Árboles De Decisión

Cuidado con ChatGPT (advertencia núm. 232923423)

No sé cómo traducir "Partially additive (generalized) linear model trees"

Repensando la codificación por impacto

Rápido y frugal: una digresión en la dirección inhabitual

Discretización de variables continuas (con árboles)

evtree: árboles globales

Bajo el capó del particionamiento recursivo basado en modelos

Incrementalidad via particionamiento recursivo basado en modelos

En recuerdo de Leo Breiman