Carlos J. Gil Bellosta

Trae el New York Times un artículo excepcional —y al que se le puede sacar mucha punta—, 3 Theories of What’s Going On With the Contradictory Economic Data, sobre una aparente contradicción en las estadísticas económicas de los EEUU —crecimiento sustancial del PIB acompañado de un estancamiento del mercado laboral— alrededor de la fecha en la que esto se escribe. Las tres explicaciones que ofrece, que en realidad son cuatro, se presentan a continuación.

Futarchy’s fundamental flaw: Dynomight sostiene que la idea central de la futarquía —el uso de mercados de predicciones como guía de las políticas económicas— es problemática porque esos mercados únicamente revelan probabilidades condicionales (correlaciones) y no efectos causales reales, i.e., qué ocurriría si se toma una decisión. Dado que las probabilidades condicionales no reflejan intervenciones, los precios de mercado pueden inducir a error sobre el impacto real de las políticas, un punto que el autor ilustra con varios ejemplos.
Decision Conditional Prices Reflect Causal Chances: Es la réplica de Robin Hanson, a quien debemos el concepto de la futarquía, a la entrada anterior. Sostiene que si los agentes usan la misma teoría de decisión y comparten información similar, entonces los precios sí reflejan las probabilidades relevantes para el cálculo de la utilidad esperada. Como consecuencia, los mercados de predicciones serían más útiles para tomar decisiones de lo que afirman sus críticos, por más que subsistan problemas técnicos relacionados con la asimetría de la información y cuestiones relacionadas con la temporalidad.
When thinking about causal inference, mechanistic or process models are important. I think that the association of “causal” with black-box models leads to lots of problems.: Andrew Gelman defiende los modelos generativos (que describen la dinámica subyacente de los sistemas) para comprender y generalizar relaciones causales, particularmente frente a la proliferación de sistemas opacos basados en la IA.
Can a Transformer “Learn” Economic Relationships?: Un artículo que abunda sobre la cuestión del anterior. Estudia si las redes neuronales pueden aprender relaciones económicas estructurales a partir de datos simulados y muestra cómo estos modelos pueden aprender la dinámica de un modelo neokeynesiano y realizar predicciones razonables con datos distintos de los de entrenamiento, lo que sugiere que pueden capturar aspectos relevantes del proceso generador de datos. Sin embargo, los modelos no aprenden completamente las relaciones estructurales verdaderas. Como conclusión, los LLMs actuales no resuelven por completo los problemas señalados por la crítica de Lucas, pero abren nuevas vías para la modelización económica.
Causation Does not Imply Variation: John H. Cochrane señala que identificar un efecto causal de una variable sobre otra no implica que las variaciones en ese factor causal expliquen gran parte de la variación observada en el resultado. Los métodos empíricos suelen aislar variaciones pequeñas y exógenas para estimar efectos causales, pero la mayor parte de la variación real suele provenir de otros factores. Así que, aunque la identificación causal ha mejorado la economía empírica, no necesariamente explica qué impulsa la mayor parte de la variación en variables clave.

Isotype: Un método para graficar datos (y no solo datos) relacionados con asuntos sociales, económicos, tecnológicos, etc. que puede considerarse un antecesor de la infografía contemporánea. Fue desarrollado hace 100 años por Otto Neurath, uno de los integrantes del Círculo de Viena.
Good if make prior after data instead of before: Dynomight argumentando que no solo es legítimo sino necesario construir las prioris después de ver datos (escribo datos y no los datos a propósito).
Bayes vs. the Invaders (Redivivus): La Oxford Internet Institute Halloween Lecture de 2025, que explora mediante un modelo bayesiano simple una base de datos histórica de avistamientos de OVNIs.
GAMs for Customer Lifetime Value (CLV) prediction: Prácticamente, un tutorial de uso de los GAMs con R que merece ser tenido a la mano.
Simulating from and checking a model in Stan: It’s so easy in Stan Playground–it just runs on your browser!: Eso, que se pueden correr modelos bayesianos con Stan en el navegador.
Finalmente, una nota bizarra. Durante un tiempo seguí un blog, GetStats, al que enlacé varias veces en estas páginas hace muchos años. Luego, o desapareció o perdí interés en él. No lo recuerdo, fue hace mucho tiempo. Hace unos días, revisando y tratando de enmendar enlaces rotos de entradas antiguas, volví a dar con él. Pero advertí algo sospechoso: no solo habían desaparecido los contenidos (interesantes) a los que apuntaba sino que el contenido actual parecía plano y romo, como producto de un LLM no muy avispado. En definitiva, una acumulación de indicios me hizo albergar sospechas de que esa no era la página que conocí en tiempos, hasta que un hecho las confirmó indubitablemente: en el pie de todas las páginas figuraba el logo y el enlace a un casino trucho. En definitiva, se trata de un caso de lo que se llama expired domain sniping y que ha afectado a otras páginas similares. Espero que no sea tal el futuro de datanalytics.com.

Topé el otro día con el artículo Cyrena Arnold, meteoróloga: “La gente no sabe realmente qué significa probabilidad de precipitación”, que me interesó por varios motivos:

Una parte sustancial de la teoría sobre calibración de modelos predictivos ha sido desarrollada por meteorólogos.
Porque es un asunto que ya he tratado antes.
Porque XKCD también:

Probabilidad de lluvia

Porque en el blog de Andrew Gelman también se han ocupado del asunto y en él se puede leer:

La probabilidad de precipitación es $C \times A$ donde $C$ es la probabilidad de precipitación en algún lugar de la zona de predicción y $A$ es la proporción del área que recibirá alguna cantidad medible de precipitación, de haberla. Así que el método correcto de interpretar la predicción es: hay un X% de probabilidad de que llueva en algún punto de la zona.

Claude Opus 4.5 Is The Best Model Available: Zvi sostiene que Claude Opus 4.5 es actualmente el mejor modelo disponible para uso práctico, superando a alternativas como GPT-5.2 y Gemini en muchas tareas cotidianas y de desarrollo. Destaca tanto benchmarks como impresiones subjetivas para justificar su superioridad en razonamiento, programación y conversación. También analiza factores como ecosistema, latencia y usabilidad. (A pesar de ello, parece, se usa más en entornos laborales que fuera de ellos).
Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult: Simon Willison reflexiona sobre Claude Opus 4.5 y explica que evaluar los LLM modernos es cada vez más difícil porque las mejoras son sutiles, dependen del contexto y no se reflejan bien en los benchmarks tradicionales. Argumenta que la experiencia subjetiva y las evaluaciones basadas en tareas reales son más útiles que las clasificaciones en tablas y que, dado que los modelos están convergiendo sustancialmente, las comparaciones directas son cada vez más complicadas.
METR: Measuring AI Ability to Complete Long Tasks – METR: Argumenta que los benchmarks clásicos para medir la eficacia de los LLMs se centran en tareas cortas y aisladas que no reflejan su uso real. El enfoque de METR consiste en utilizar tareas largas que involucran múltiples pasos, lo que le permite evaluar su capacidad para planificar y mantener un estado coherente y continuo a lo largo del tiempo.
GitHub – google/mcp — Repositorio MCP oficial de Google. Incluye servidores, ejemplos y documentación para integrar agentes y modelos con servicios externos como Google Workspace, BigQuery o Maps.
JustHTML is a fascinating example of vibe engineering in action: Simon Willison presenta JustHTML, un parseador de HTML5 en Python puro que pasa la colección completa de pruebas de html5lib. Lo describe como un ejemplo de vibe engineering: usar agentes de código junto con buenas pruebas y supervisión humana. El artículo destaca que este enfoque produce software de alta calidad, no solo código generado sin criterio.
I ported JustHTML from Python to JavaScript with Codex CLI and GPT-5.2 in 4.5 hours: Abundando en lo anterior, Willison cuenta cómo portó JustHTML de Python a JavaScript usando Codex CLI y GPT-5.2 en unas 4.5 horas. El texto reflexiona sobre el impacto de los LLM en el desarrollo de software y la confianza en el código generado.
Agent Skills: Willison, de nuevo, explica cómo los Agent Skills de Anthropic se han convertido en una especificación abierta y ligera para que los agentes puedan asumir y reutilizar habilidades. Aunque es una especificación pequeña y no enteramente definida, ya está siendo adoptada por herramientas como Cursor y VS Code. Se analiza su papel dentro del ecosistema más amplio de agentes y protocolos como MCP.

Nota final: A partir del 1 de enero de 2026, voy a comenzar a numerar las entradas consistentes en breves comentarios de artículos en su título. A ver hasta qué número llego antes de rendirme.

Ahora que se popularizan los mercados de predicciones, merece la pena revisitar algunas ideas sobre la relación entre precios y probabilidades.

He citado varias veces esta página del blog de donde rescato la cita de Sam Savage

Mi padre, Leonard Jimmie Savage, fue un pionero en la defensa de las probabilidades subjetivas. Desde pequeño, me enseñó a pensar en la probabilidad de un evento como el dinero que estaría dispuesto a pagar por participar en una apuesta en la que ganaría cien dólares si ocurriese.

Tezanos defiende que su CIS es el que más acierta: “La crítica que se hace no es científica”. Y él es científico porque es catedrático. Zanjado definitivamente el problema de la demarcación.
Hey Students, Considering Majoring in Sociology?. Pues tal vez, después de navegar por el anterior enlace, cambiáis de opinión.
You Actually Have to Read the Studies, You Know. Nicholas Decker critica la práctica común en medios y debates públicos de citar estudios sin realmente leerlos ni evaluar su calidad metodológica. Sostiene que muchos artículos son referenciados superficialmente para respaldar una narrativa ya decidida, lo que lleva a exageraciones, malinterpretaciones y conclusiones poco fundamentadas. La pieza enfatiza que la falta de lectura crítica de la evidencia socava la verdad y empobrece el discurso público. Decker argumenta que leer los estudios completos —y con un ojo crítico— es esencial para entender realmente lo que la evidencia dice. Aunque esas cosas ya no nos asustan, ¿verdad?
25,000 lives saved per ship sunk, $100,000 per citation, a probability of 10^-90 of a decisive vote . . . Is there a through line from B.S. numbers in junk science to B.S. numbers coming from the government?. Andrew Gelman se queja de ciertos números atribuidos a miembros del gobierno (de EEUU) que, sostiene (y hay motivos para creerle) que son no solo falsos, sino dolosamente engañosos. A su lista añadiría yo otros números que no se dicen sino que se pagan, como estos.

Hace un tiempo leí que los contribuyentes del RU invirtieron 700 millones de libras en salvar la vida de un salmón cada 10 años. Lo cual supera lo de los 100 millones de libras en salvar a unos murciélagos de ser atropellados por el tren chuchú.

Me preguntaba si sería cierto. ChatGPT me lo ha aclarado bastante:

Buena pregunta: la afirmación que mencionas es más o menos cierta, pero necesita contexto y matices. Esto es lo que sabemos sobre la situación (a finales de 2025) con Hinkley Point C, la nueva central nuclear del Reino Unido:

¿Explica la paradoja de Simpson por qué crece la economía sin que se reduzca del desempleo?

Notas (3): Causalidad en mercados de predicciones y modelos económicos

Notas (2): GAMs, Stan en el navegador y algunas otras cosas más

De nuevo, ¿qué significa «un 30% de probabilidad de lluvia»?

Notas (1): Claude Opus 4.5, agentes y el nuevo estándar del desarrollo con LLMs

Sobre la relación entre precio y probabilidad en mercados de predicciones

Números engañosos y algunos otros asuntos relacionados con la estadística (y la seudosociología del CIS)

¿Será cierto que gastaron 700 millones de libras en salvar la vida de un salmón cada diez años?