Si Pearson hubiese tenido un ordenador como el mío...

2023-6-13

… muchas cosas serían muy distintas hoy en día. Hoy quiero elaborar sobre su artículo de 1900 X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling famoso por nada menos que introducir el concepto de p-valor y el el uso de la $\chi^2$ para medir la bondad de ajuste.

En el artículo hay una construcción teórica que no me he tomado la molestia de leer con detalle y algunos ejemplos, siendo el primero de ellos

Para resolverlo, usa —¡por primera vez!— el test de la $\chi^2$ para llegar a un p-valor —o, en su nomenclatura, una P— de 0.000016. Pero, ¿cómo se podría llegar a un resultado similar aplicando primeros principios y sin la perífrasis matemática a la que se vio abocado Pearson por no tener ordenador?

Primero, los datos de partida:

weldon <- c(
     185, 1149, 3265, 5475,
    6114, 5194, 3067, 1331,
     403,  105,   14,    4,
       0)

Esos datos, de estar los datos bien calibrados, deberían ser producto de un proceso estocástico

$$D \sim \text{multinomial}(p_0, \dots, p_{12})$$

donde el vector $(p_i)$ es

probs <- dbinom(0:12, 12, 1/3)

La probabilidad de la tirada en cuestión es

p_weldon <- dmultinom(weldon, sum(weldon), probs)
p_weldon
#8.308909e-28

es decir, un número ínfimo. Aunque dicha probabilidad no nos dice gran cosa. De hecho, resultado más probable, el central tiene una probabilidad igualmente ínfima:

dmultinom(
    round(probs * sum(weldon)),
    sum(round(probs * sum(weldon))),
    probs)
#3.682668e-19

Así que uno puede preguntarse: de repetirse el experimento del Sr. Weldon muchas veces, ¿en qué proporción de los casos se obtendría una probabilidad menor? Y para ello, basta con hacer

res <- replicate(
  10000,
  dmultinom(
    rmultinom(1, sum(weldon), probs),
    sum(weldon), probs))

mean(res < p_weldon)
#1e-04

Y nada más. De modo que si Pearson hubiese tenido ordenadores, hoy estaríamos prestando más cuidado a modelar con mimo el proceso aleatorio que genera los datos y menos a buscar en recetarios de métodos que resuelven problemas que no nos paramos a pensar que ya no tenemos.