No, tus datos no "tienen sobredispersión": es que el gato de Nelder se ha merendado la epsilon
El modelo de Poisson viene a decir que si y
es una variable con valores 0, 1,… y x1
,…, xn
son variables explicativas tiene cierto sentido en algunos casos plantear un modelo de la forma
$$ y | x_i \sim \text{Pois}(\exp(a_0 + \sum_i a_i x_i) ),$$
Es decir , para cada combinación de las xi
, el modelo proporciona el parámetro de una distribución de Poisson de la que y
es una realización. Hay una incertidumbre (o un error irreductible) que reside en que de y
solo conocemos la distribución.
Pero el modelo anterior tiene un problema, un megaproblema. Un problema enorme, nachovidaliano, en el que apenas se repara y del que en contadas ocasiones nos advierten: que también puede haber un error en la expresión lineal. Más bien: siempre hay un error en la expresión lineal. Las xi
solo recogen todo lo que hay que saber sobre y
en laboratorio.
¿Qué ocurre si hay un error de especificación? ¿Qué pasa si omitimos alguna variable relevante para determinar y? Para averiguarlo, es útil comenzar planteando un modelo mucho más satisfactorio:
$$ y_j | x_{ij} \sim \text{Pois}(\exp(a_0 + \sum_i a_i x_{ij} + \epsilon_j))$$
$$ \epsilon_j \sim N(0, \sigma)$$
con las habituales propiedades de independencia.
El primer modelo infraestima la variabilidad de las y
porque elimina una fuente de variabilidad: la del error de especificación. Aparentemente, tus y
tienen mayor varianza de la que cabe esperar… de acuerdo con (y solo porque usas un) modelo setentero.
Mañana, algunos números al respecto.