Predicción

I. Todo lo que uno necesita saber sobre los espacios de colores (y nunca supo que lo necesitaba preguntar). II. Todos estos asuntos sobre la intermitencia de las energías renovables, etc., ¡son tan estadísticos/probabilísticos! ¿Cómo no quererlos? III. Otro artículo sobre la reducción de la varianza. Esta vez, el de los precios del pescado en el sur de la India. El gráfico que lo dice todo es este: Otro de los instrumentos para reducir la varianza de los precios son los mercados, en general y los de futuros en particular.

I. Imaginemos que estamos viendo un partido de fútbol en la tele. Arriba, a la izquierda, hay un par de cifras: es el marcador que nos dice cómo va el partido. En un mundo paralelo, en lugar del resultado provisional (p.e., 0-0 al comenzar el partido), el marcador podría mostrar la predicción del resultado al acabar el encuentro. Podría suceder que en el minuto cero indicase algo así como 3-2 si tal fuese la mejor estimación posible del resultado final.

Pensé que había hablado antes de la llamada predicción conforme. Lo habré soñado. Así que me pongo con ello. Me retrotraigo a hace unos cuantos años, antes de la explosión del deep learning, a la época en la que aún tenía vida social. Uno de los pioneros de esas técnicas me contaba un día en un restaurante cómo funcionaban. Por ejemplo, para clasificar, creaban unas funciones muy complejas cuya salida era un vector (largo) de números positivos que sumaban uno.

Una de mis aficiones más excusables es la de participar en el mercado de predicciones de Hypermind. Una de las preguntas que se suele plantear anualmente —y en la que, gracias a apostar contra el común/apocalíptico sentir, logré pingües beneficios el año pasado— tiene que ver con cuándo nos vamos a morir todos. De otra manera: Este año también quiero participar, pero como no sabía por dónde empezar, he bajado los datos.

Esa entrada tiene que ver con dos cosas. Una, la que escribí hace un tiempo sobre el análisis de modelos a la vista de información que nosotros tenemos y ellos, por lo que sea, no. La segunda, que es además la que da nombre a esta, un fenómeno que menciona Paul Meehl en su libro Clinical Versus Statistical Prediction. El libro describe y las compara predicciones clínicas (subjetivas, basadas en la experiencia y usando como datos dossieres más o menos extensos) y las estadísticas, basadas en puntuaciones (o scores) construidos a partir de en unas cuantas variables.

Hace un tiempo hablé sobre la estimación de probabilidades de eventos que ocurren una única vez: elecciones, etc. Argumentaba cómo pueden ser descompuestos en dos partes muy distintas cualitativamente: una asociada a eventos que sí que se han repetido; otra, específica y única. El tamaño relativo de ambas componentes afecta a eficacia del mecanismo de estimación. Esta vez quiero ilustrarlo con un ejemplo extraído, traducido y adaptado de aquí que ilustra el procedimiento.

Escribí el otro día sobre los llamados momentos Le Verrier. Que, siguiendo la nomenclatura de Why ask why? Forward causal inference and reverse causal questions no son otra cosa que ejercicios de causalidad inversa con final feliz. Efectivamente, según el artículo, las cuestiones de índole causal son de dos tipos: prospectivas y retrospectivas (o inversas), en una traducción muy libre. Las primeras, más habituales, se refieren a cuáles serán los efectos de una causa.

IBM ha desarrollado una iniciativa, Uncertainty Quantification 360, que describe así: Uncertainty quantification (UQ) gives AI the ability to express that it is unsure, adding critical transparency for the safe deployment and use of AI. This extensible open source toolkit can help you estimate, communicate and use uncertainty in machine learning model predictions through an AI application lifecyle. We invite you to use it and improve it. En la página del proyecto hay documentación abundante pero recomiendo comenzar por la demo.

Son muy infrecuentes, lo admito. Pero cuando ocurren, le dan a uno ganas de poner los pies encima la mesa y fumarse un puro. ¿Qué son? Imagina que te pasan unos datos con el objetivo de realizar determinadas predicciones. Creas un modelo razonable —hasta bueno, dirías—, basado en primeros principios y que funciona bastante bien… excepto en unos cuantos casos irreductibles (sí, como aquellos galos de su aldea). Compruebas el modelo una y mil veces y no le ves problemas significativos; revisas los datos de nuevo, especialmente en esos casos en los que el modelo falla, y parecen tener sentido.

Como tan a menudo se nos olvida, Taleb nos recuerda, breve y conciso, un par de cositas sobre las predicciones puntuales aquí. Además, casi todo lo que tiene que decir se resume en:

Subrayo hoy aquí tres cuestiones que considero importantes del reciente artículo Prediction, Estimation, and Attribution de B. Efron (para otra visión, véase esto). La primera es que existe una cadena de valor en la modelización estadística que va del producto más ordinario, la predicción, a la estimación y de este, al más deseable, la atribución. En la terminología de Efron, estimación consiste en la determinación de los parámetros subyacentes (e importantes) del modelo; específicamente se refiere a la estimación puntual; atribución tiene que ver con intervalos de confianza, p-valores, etc.

Hay mucha incertidumbre sobre cómo será el mundo post-coronavirus. Pero una cosa es segura: tendremos gráficas tales como hasta en la sopa. La buena noticia para quienes son ellos y su ideología, es que hay tantos grados de libertad, i.e., la posibilidad de elegir muy cuidadosamente las variables que colocar en el eje x, las fuentes, los años de los datos, etc., los indicadores que colocar en el eje y, los países, provincias, regiones, etc.

Acaban de notificarme que han aprobado mi cuenta en Hypermind. Hypermind es un mercado de predicciones cuyo funcionamiento está descrito aquí y aquí mejor que yo pudiera hacerlo. Ya iré contando. En tanto, una imagen extraída de uno de los enlaces anteriores que vale por mil palabras:

Predicción

Cortos

Encuestas vs predicciones electorales

Breve introducción crítica a la llamada "predicción conforme"

Ajuste de modelos lineales y predicción de valores con numpyro

El efecto "pierna rota"

Más sobre la estimación de probabilidades de eventos que no se repiten

Causalidad inversa: más sobre los momentos "Le Verrier"

Cuantificación de la incertidumbre

Esos felices "momentos Le Verrier"

Sobre predicciones puntuales

Sobre "Predicción, estimación y atribución"

Cosas que ocurrirán sin lugar a dudas tras el coronavirus

Tengo cuenta en Hypermind