Interacciones y selección de modelos

Desafortunadamente, el concepto de interacción, muy habitual en modelización estadística, no ha penetrado la literatura del llamado ML. Esencialmente, el concepto de interacción recoge el hecho de que un fenómeno puede tener un efecto distinto en subpoblaciones distintas que se identifican por un nivel en una variable categórica.

El modelo lineal clásico,

y \sim x_1 + x_2 + \dots

no tiene en cuenta las interacciones (aunque extensiones suyas, sí, por supuesto).

El motivo de esta entrada es ofrecer cierta intuición sobre qué modelos son más adecuados para modelar un fenómeno en función de la importancia esperada de las interacciones. O mejor dicho, de cómo de heterogéneo es el modelo en categorías distintas de la población. Voy a establecer tres niveles:

  • Nivel lm: Pocas interacciones y fáciles de intuir. Se introducen en el modelo a mano. (Obviamente, lm es una etiqueta que puede extenderse a cantidad de generalizaciones suyas, de los GLMs, a los GAM, a los…).
  • Nivel random forest: Nivel intermedio de interacciones, imposibles de predeterminar. Los árboles son modelos que, esencialmente, detectan interacciones entre variables y funcionan mal con efectos aditivos. Todas sus extensiones entran en esta categoría.
  • Nivel k-vecinos: Esencialmente, todo es interacción y para qué crear ramas usando árboles cuando cada observación define de alguna manera, la suya.

La distinción entre los dos últimos niveles es sutil y depende entre otras consideraciones, del número de niveles de las variables categóricas que definen los cortes. Además, gran parte del software para ajustar rrff hace tonterías con las variables categóricas (sí, el llamado one hot encoding es un tiro en el pie).

Y esto viene al caso de unos modelos que estoy haciendo en el que trato de combinar k-vecinos para seleccionar una submuestra relevante y lmer para rematar la faena. A ver.

2 comentarios sobre “Interacciones y selección de modelos

  1. Jose Luis Cañadas Reche 16 marzo, 2020 18:54

    lmer en todas partes

  2. x 16 marzo, 2020 23:58

    Qué recursos recomiendas para aprender sobre el concepto de interacción?

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.