No, tus datos no «tienen sobredispersión»: es que el gato de Nelder se ha merendado la epsilon

El modelo de Poisson viene a decir que si y es una variable con valores 0, 1,… y x1,…, xn son variables explicativas tiene cierto sentido en algunos casos plantear un modelo de la forma

y | x_i \sim \text{Pois}(\exp(a_0 + \sum_i a_i x_i) ),

Es decir , para cada combinación de las xi, el modelo proporciona el parámetro de una distribución de Poisson de la que y es una realización. Hay una incertidumbre (o un error irreductible) que reside en que de y solo conocemos la distribución.

Pero el modelo anterior tiene un problema, un megaproblema. Un problema enorme, nachovidaliano, en el que apenas se repara y del que en contadas ocasiones nos advierten: que también puede haber un error en la expresión lineal. Más bien: siempre hay un error en la expresión lineal. Las xi solo recogen todo lo que hay que saber sobre y en laboratorio.

¿Qué ocurre si hay un error de especificación? ¿Qué pasa si omitimos alguna variable relevante para determinar y? Para averiguarlo, es útil comenzar planteando un modelo mucho más satisfactorio:

y_j | x_{ij}  \sim \text{Pois}(\exp(a_0 + \sum_i a_i x_{ij} + \epsilon_j))

\epsilon_j \sim N(0, \sigma)

con las habituales propiedades de independencia.

El primer modelo infraestima la variabilidad de las y porque elimina una fuente de variabilidad: la del error de especificación. Aparentemente, tus y tienen mayor varianza de la que cabe esperar… de acuerdo con (y solo porque usas un) modelo setentero.

Mañana, algunos números al respecto.

Un comentario sobre “No, tus datos no «tienen sobredispersión»: es que el gato de Nelder se ha merendado la epsilon

Los comentarios están desabilitados.