Funciones de enlace "por defecto" en (ciertos) GLMs

Después de publicar Una regresión de Poisson casi trivial con numpyro me riñeron por usar la identidad como función de enlace en la regresión de Poisson. Es decir, por especificarlo como

$$\lambda_t = a + b t$$

en lugar del estándar

$$\lambda_t = \exp(a + b t).$$

Hay varias cosas bastante bien conocidas y una que lo es bastante menos —y que resulta mucho más paradójica— que decir al respecto.

Antes necesito añadir que:

  • Probablemente, omitir $\exp$ fue una acto involuntario (y, creo, además, que afortunado).
  • Realmente, y como se discute abajo, el modelo no necesita la función exponencial de enlace. Si se hubiese tratado de uno que sí, habrían saltado las alarmas y, sin duda, lo habría corregido.

Cosas conocidas sobre la identidad (y la función exponencial) como funciones de enlace para modelos de Poisson:

  • Aunque la exponencial es la opción por defecto en casi todas partes, la identidad es la alternativa más popular.
  • La identidad plantea algunos problemas (¡puede dar lugar a valores $\lambda < 0$!) que no tienen por qué ocurrir en todos los contextos. En particular, no en el que se trataba en el estudio en cuestión: en todo el rango de interés, $\lambda$ estaba necesariamente lejos del cero.

Pero el caso de hoy plantea una cuestión adicional que, creo, es incluso más importante que todo lo anterior. Imaginemos que —por pereza, ignorancia o influencia de la econometría mal entendida— queremos modelar los datos de la entrada anterior usando el modelo lineal de toda la vida con todas sus opciones por defecto:

lm(y ~ t, data = dat)

Ahí estás diciendo que $y = a + b t$ y que cada año, la media de $y$ aumenta en $b$ unidades.

Sin embargo, si has oído hablar de la regresión de Poisson y la aplicas con sus opciones por defecto, es decir, haces

estarás dentro de la ortodoxia, pero diciendo que $y = \exp(a + b t)$ (obvio señalar que los valores de $a$ y $b$ no coincidirán con los de arriba) y que, por tanto, cada año que pasa, la media se multiplica por $e^b$.

Es decir: no solo cambiamos la especificación del modelo (o la forma esperada de la dispersión) sino también algo muy relevante sobre la naturaleza de los datos y, en concreto, el modelo generador. Porque no es lo mismo un crecimiento lineal que uno exponencial, obviamente. Cierto que para coeficientes pequeños y rangos razonables la diferencia no es sustancial. Pero nadie negará que de lo lineal a lo geométrico media un mundo.

Así que, en definitiva, parece aconsejable repensar la forma de la función de enlace atendiendo al modelo teórico de generación de los datos en lugar de fiarse no más de lo primero que se encuentra en la literatura más a mano.

Coda

Perdónenme los estadísticos: he usado impropiamente el término función de enlace en todo lo anterior. En realidad, he llamado función de enlace a su inversa. ¡Pero es que da tanta, tanta pereza portarse siempre bien!