Si Pearson hubiese tenido un ordenador como el mío...
… muchas cosas serían muy distintas hoy en día. Hoy quiero elaborar sobre su artículo de 1900 X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling famoso por nada menos que introducir el concepto de p-valor y el el uso de la $\chi^2$ para medir la bondad de ajuste.
En el artículo hay una construcción teórica que no me he tomado la molestia de leer con detalle y algunos ejemplos, siendo el primero de ellos
Para resolverlo, usa —¡por primera vez!— el test de la $\chi^2$ para llegar a un p-valor —o, en su nomenclatura, una P— de 0.000016. Pero, ¿cómo se podría llegar a un resultado similar aplicando primeros principios y sin la perífrasis matemática a la que se vio abocado Pearson por no tener ordenador?
Primero, los datos de partida:
weldon <- c(
185, 1149, 3265, 5475,
6114, 5194, 3067, 1331,
403, 105, 14, 4,
0)
Esos datos, de estar los datos bien calibrados, deberían ser producto de un proceso estocástico
$$D \sim \text{multinomial}(p_0, \dots, p_{12})$$
donde el vector $(p_i)$ es
probs <- dbinom(0:12, 12, 1/3)
La probabilidad de la tirada en cuestión es
p_weldon <- dmultinom(weldon, sum(weldon), probs)
p_weldon
#8.308909e-28
es decir, un número ínfimo. Aunque dicha probabilidad no nos dice gran cosa. De hecho, resultado más probable, el central tiene una probabilidad igualmente ínfima:
dmultinom(
round(probs * sum(weldon)),
sum(round(probs * sum(weldon))),
probs)
#3.682668e-19
Así que uno puede preguntarse: de repetirse el experimento del Sr. Weldon muchas veces, ¿en qué proporción de los casos se obtendría una probabilidad menor? Y para ello, basta con hacer
res <- replicate(
10000,
dmultinom(
rmultinom(1, sum(weldon), probs),
sum(weldon), probs))
mean(res < p_weldon)
#1e-04
Y nada más. De modo que si Pearson hubiese tenido ordenadores, hoy estaríamos prestando más cuidado a modelar con mimo el proceso aleatorio que genera los datos y menos a buscar en recetarios de métodos que resuelven problemas que no nos paramos a pensar que ya no tenemos.