Errores de tipo M y de tipo S

A los estadísticos se nos acusa en ocasiones de contestar preguntas tontas en las que nadie está interesado.

(Nota: de alguna manera conseguí el artículo al que se refiere el enlace anterior; pero ahora no veo que exista ninguna copia libre por ahí. Si alguien la consigue, por el bien del resto de los lectores, que me avise o que lo haga saber en los comentarios).

A lo que iba. Muchos estadísticos tienen el cerebro reprogramado para tratar de no cometer los llamados errores de tipo I y errores de tipo II (y para ello tratan de estimar una cosa de dudosa utilidad, P(D|H), donde D son los datos y H es cierta hipótesis (que, generalmente, a nadie interesa y que es más difícil de plantear correctamente de lo que parecería).

Este problema es particularmente serio cuando el tamaño de D es tan grande que P(D|H) es prácticamente cero independientemente de H. Este tal vez sea el problema más serio de la inferencia en el mundo del big data.

Creo que pensar en términos de errores de tipo S y errores de tipo M nos podría ayudar a satisfacer mejor las necesidades de quienes vienen a nosotros con preguntas. Lo que son ambos, lo dice el enlace anterior. Pero para los impacientes,

  • el error de tipo S es el que se comete cuando uno se confunde en el sentido de un efecto (o parámetro) y
  • el error de tipo M es el que se comete cuando uno se confunde en su magnitud.

Porque la gente(*), en el fondo, solo quiere saber si su X es bueno y de serlo, cuánto. El resto es liturgia.

(*) Excluyo a aquellos que son aún peores: los que asumen sin más los aspectos más rituales de la liturgia y necesitan, porque se lo ha dicho su director de tesis, que necesitan que una cosa sea inferior a 0.05.