Vale, el modelo es y = f(x) + error y f es importante, pero lo que le da significado es y

Esta es una entrada sobre la semántica de los modelos que resume mi planteamiento en una discusión que tuve hace un tiempo en Twitter. La he buscado sin éxito, así que la resumo. Alguien —no recuerdo bien— quería explicar cómo hace AEMET las predicciones meteorológicas probabilísticas. Pero con un error de planteamiento. Venía a decir que una predicción meteorológica probabilística (p.e., la probabilidad de que mañana llueva en Madrid) no significa algo así como que de tantos días parecidos a los de hoy, al día siguiente llovió en tal proporción sino otra cosa distinta.

Lo que argumentaba era que AEMET tiene un sistema (determinista) para proyectar a futuro la situación de la atmósfera y que para obtener predicciones (de, p.e., lluvia), genera proyecciones variando ligeramente los parámetros iniciales. La probabilidad de lluvia predicha es entonces la proporción de simulaciones en las que llueve.

Lo cual es dos cosas a un tiempo:

  • Cierto. O, al menos, una simplificación aceptable de cómo realiza AEMET las predicciones meteorológicas (para más detalles, véase esto, un capítulo dentro del muy recomendable libro Física del caos en la predicción meteorológica).
  • Una confusión conceptual bastante seria, como pondré de manifiesto en lo que sigue.

Antes de ello, no puedo dejar de mencionar la importancia que las predicciones probabilísticas en general y las meteorológicas en particular han tenido para el desarrollo de la estadística. Herramientas como el CRPS están indisolublemente asociadas a sus múltiples aplicaciones en dicha disciplina (y creo recordar, además, que el CRPS fue propuesto originalmente dentro de dicha disciplina).

Tampoco puedo dejar de mencionar cómo también el asunto de qué significan, cómo se interpretan (realmente) y cómo deberían interpretarse idealmente las estimaciones meteorológicas probabilísticas ha sido objeto de estudio de sicólogos (“A 30% Chance of Rain Tomorrow”: How Does the Public Understand Probabilistic Weather Forecasts?), meteorólogos (What is the Meaning of PoP), estadísticos (What does it mean when they say there’s a 30% chance of rain?) y humoristas (Meteorologist).

Pero retomo el asunto de la confusión conceptual. Y es que quienquiera que diseño la $f(x)$ que proporciona las predicciones probabilísticas tuvo delante de sí innumerables opciones para construirla (poéticamente: transitaba en el borgiano jardín de los senderos que se bifurcan) y lo que le hizo decantarse por la particular versión de $f$ que describe AEMET en en libro anterior es su compatibilidad con $y$, es decir, los registros existentes de días en que llovió y no llovió. Es precisamente $y$ la que da —dió— forma al modelo y la que, finalmente, explica lo que hace.

El cómo, la $f$, es otra cuestión distinta.