Cinco asuntos breves sobre modelización estadística

Hoy, cinco breves comentarios sobre dos temas distintos relacionados con la modelización estadística. Sobre el primero, técnicas alternativas de modelización, tres enlaces:

  1. What is elastic weight consolidation?, una técnica para afinar el entrenamiento de modelos profundos. Imagínese que a un LLM ya existente le queremos enseñar, por ejemplo, legislación penal española. En tanto que lo reentrenamos con el código penal, no queremos que olvide todo lo demás que aprendió penosamente. Una ténica que se emplea es la llamada elastic weight consolidation, donde, como en elastic-net, se penaliza el que los pesos se desvíen de un valor de referencia. En elastic-net, ese valor de referencia es el cero. En elastic weight consolidation, son los pesos del modelo inicial. Porque queremos pesos, obviamente, distintos de los iniciales pero no demasiado lejos de ellos. (Queda como eljercicio para el lector la reinterpretación bayesiana del párrafo precedente).
  2. Universal estimation with Maximum Mean Discrepancy (MMD) habla de cómo se puede usar MMD como función de pérdida al ajustar modelos. El MMD es el método de los momentos de toda la vida, pero a lo bestia, es decir, aproximándolos todos ellos a la vez. Se puede ver una aplicación —ya obsoleta por las nuevas IA generadoras de imágenes— aquí.
  3. No tengo ninguna opinión particular sobre el uso de números complejos en el suavizado exponencial. No tengo claro qué se gana (¿algún grado de libertad?), pero dejo constancia de que alguien, en algún lugar, parece estar usándolo.

El segundo, sobre dos aspectos importantes de la modelización estadística:

Interpretación de modelos: el elefante en el salón

Hay mucha teoría sobre interpretación de modelos (estadísticos, de machine learning y, ahora, de deep learning). Hay muchos métodos y herramientas para ello; de algunas he hablado en el pasado por aquí. Hay también, mucha demanda de ello, en gran medida por motivos legales y regulatorios. Pero en toda la literatura al respecto apenas nadie se toma la molestia de advertir que hay un elefante en el salón.

Este elefante tiene que ver con la imposibilidad material de la tarea en cuestión. Todo lo que se hace, como se discutirá a continuación, es aplicar meros paños calientes, hacer como que se hace, pero evadiendo el meollo (de cuatro toneladas, grandes orejas y trompa descomunal).

Cómo exprimir la prueba de Kolmogorov-Smirnov y unos cuantos asuntos más

Suponía que era de conocimiento universal. Pero si John D. Cook siente la necesidad de recordarnos que las probabilidades pequeñas se suman pero las grandes no, será por algo.

Lo raro es que no ocurra nunca nada altamente improbable, edición número 6210.

En los extremos, la varianza importa más que la media. (Se refiere a dos poblaciones con medias y varianzas distintas. Si una observación es extrema, es casi seguro que viene de la población con mayor varianza que la de mayor media, para casi todas las definiciones razonables y compatibles de razonables de mayor y extremo).

SVI, ELBO y todas esas cosas: un ejemplo básico

I.

Va por delante que esta entrada está basada en esto. Se trata, de hecho, de las notas que he extraído mientras profundizaba en la implementación que hace NumPyro de la inferencia variacional, el ELBO, etc.

Antes de nada, nos quitamos los requisitios de en medio:

import jax.numpy as jnp
import matplotlib.pyplot as plt
import numpyro

import numpyro.distributions as dist
import numpyro.distributions.constraints as constraints

from jax import random
from numpyro.infer import SVI, Predictive, Trace_ELBO, MCMC, NUTS

rng_key = random.PRNGKey(seed=42)

Definimos un consabidísimo modelo —tiradas de moneda con una priori $\text{Beta}(10,10)$— y unos datos —sesenta caras y cuarenta cruces—:

Algunos apuntes sueltos sobre causalidad

Bajo cierto punto de vista, el estudio estadístico de la causalidad viene a consistir en la estimación de modelos incompletos. Un modelo completo es uno que contiene todas las ecuaciones / relaciones causales que afectan a un fenómeno. En uno incompleto, las variables y ecuaciones faltantes introducen sesgos de distinta naturaleza. Uno de los sitios donde mejor lo he visto contar es en Simulating confounders, colliders and mediators, de donde extraigo, además, el siguiente gráfico:

Ergodicidad, Birkoff, Pareto, Sidgwick, utilitarismo y todas esas cosas

I.

Consideremos un proceso estocástico $X$ (por ejemplo, una sucesión de tiradas de monedas) y varias realizaciones suyas $x_i$. (Una realización sería, en este caso, una secuencia concreta de tiradas de monedas). Supongamos que cada realización $x_i$ está asociada a un sujeto $i$ (el que tira las monedas). Por conveniencia, $x_i(n)$ es la enésima tirada del sujeto $i$.

Se puede hablar de la media de $X$ que debería ser 1/2 (la proporción de caras). Pero hay varias maneas de pensar en esa media: por ejemplo, como el límite de

Cinco breves notas sobre LLMs

I.

En The “it” in AI models is the dataset se sostiene algo que ya traíamos sabido: que los modelos (incluidos los LLMs) son resúmenes de los datos con los que se entrenan:

Así, cuando hablas de “Lambda”, “ChatGPT”, “Bard” o “Claude” no te refieres a los pesos del modelo sino al conjunto de entrenamiento.

II.

Hablar de hardware en el contexto de los LLMs parecería casi exclusivamente hablar de NVIDIA, pero no solo. El modelo es el siguiente:

Exigencias aisladas de rigor (estadístico)

I.

Puede que alguien no conozca todavía el concepto de exigencias aisladas de rigor (estadístico). Lo introdujo y describió Scott Alexander aquí.

Usufructo y resumo el ejemplo con el que lo introduce:

  1. Heráclito decía aquello de que uno no puede bañarse dos veces en el mismo río (porque el agua ya no es la misma, etc.)
  2. Heráclito tenía unas vacas.
  3. Un señor se las roba.
  4. Heráclito las reclama.
  5. El señor le dice que las vacas que eran suyas (de Heráclito) ya no existen; que las que dizque ha robado eran otras distintas que andaban solas por ahí, que las encontró y se las llevó a su casa.

No sabemos hasta dónde pudo llegar el rigor filosófico y la coherencia de Heráclito. La fabulilla anterior da a entender que, probablemente, no demasiado lejos.

Los boxplots como "herramientas de entretiempo" y cuatro asuntos más

I.

Aquí se lee:

Puede parecer absurdo verificar un modelo comparando sus inferencias con las expectativas razonables —–si ya supiéramos qué esperar, ¿para qué modelar nada?— pero hay dos razones por las que este procedimiento nos parece razonable.

Es muy interesante también en tanto que describe la cantidad de hipótesis que entran —más bien, que alguien mete— en uno de esos modelos tan objetivos y data driven que vemos publicados por ahí.

Probabilidad y estadística en los Ig Nobel de 2024

Los premios Ig Nobel de este año se han anunciado (y entregado) recientemente. Dos de ellos guardan cierta relación con el asunto de estas páginas:

  1. El de demografía ha recaído en Saul Justin Newman, de la universidad de Oxford, por mostrar cómo muchos de los casos de ultracentenarios (personas que viven hasta edades significativamente por encima de los cien) ocurren realmente en lugares donde la esperanza de vida no es particularmente alta, no hay certificados de nacimiento y abundan los errores administrativos y el fraude en las pensiones. De hecho, en esta entrevista afirma cosas tan entretenidas como que en Okinawa, el mejor predictor del lugar donde residen los ultracentenarios es que el registro civil del municipio en cuestión hubiese sido destruido por los bombardeos estadounidenses en la II Guerra Mundial.
  2. El de probabilidad, en un equipo de 50 investigadores por el artículo Fair coins tend to land on the same side they started: Evidence from 350,757 flips, cuyo título lo dice todo.

El artículo busca la confirmación de resultados anunciados por Persi Diaconis y sus coautores en un artículo que ya mencioné hace años aquí. Puede que a alguien le parezca ridículo e inaudito realizar un experimento consistente en lanzar monedas un total de 350757 veces; pero hay que recordar que el primer problema de estadística que conste documentalmente que se resolvió usando p-valores fue el de determinar si había sesgos en doce dados que se lanzaron 26306 veces allá en 1900 (véase esto).