Llms | Carlos J. Gil Bellosta

Notas (11) sobre LLMs: sistemas de productividad personal, aplicaciones para la investigación, etc.

Con cada nueva tecnología, aparece al menos un estudio que la usa para tratar de revivir la frenología. El turno ahora es para AI Personality Extraction from Faces: Labor Market Implications. El economista John Cochrane ha probado Refine, un agente diseñado específicamente para revisar críticamente artículos académicos, y nos cuenta cómo los comentarios recibidos son mejores que los de la mayoría de los revisores humanos, destacando la capacidad de Refine para identificar contradicciones y lagunas. ...

Notas (8): código generado por humanos, código inspirado por humanos

Jeff Soules dio una charla sobre buenas prácticas de programación (particularmente acerca de técnicas para mejorar la legibilidad del código) y publicó las correspondientes diapositivas. Guillermo Luijk siempre escribe cosas interesantes. De entre sus últimas: Optimizando el paseo de perros con R Distribuciones normales en la torre de Pisa Perspectiva aérea desde mapa de elevaciones con C++ A Software Library with No Code describe un experimento que muchos considerarán distópico: usando LLMs, se pueden crear y compartir abstracciones reutilizables; en este caso concreto, descripciones detalladas sobre cómo debería funcionar una determinada librería pero sin escribir una sola línea de código tradicional. El usuario de esta metalibrería utilizaría un LLM para obtener una implementación en el lenguaje objetivo de su elección: Python, etc. Hay gente que utiliza LLMs para portar librerías de un lenguaje a otro; esta metalibrería representa un pequeño nivel adicional de abstracción: la descripción de lo que ha de hacer no está descrita en código sino en instrucciones verbales precisas e interpretables por los LLMs. Habría que ver si el lenguaje natural es preferible a código —que es una forma concreta de seudocódigo— para describir lo que se espera de la librería; porque lo que se espera de este (del código) es que sea más específico y menos ambiguo que aquel (el natural) a la hora de describir algoritmos fielmente.

Notas (7): de la eficiencia energética de los LLMs hasta su «lenguaje secreto»

Electricity use of AI coding agents es el enésimo intento para desactivar ese meme de que por culpa de los LLMs vamos a quedarnos sin planeta. Persuasion of Humans Is the Bottleneck discute el verdadero cuello de botella en el despliegue de los LLMs: el operador humano. Además del marco legal (y la responsabilidad asociada a él) en el que operan la mayor parte de las organizaciones humanas. Eso sí, incurre en una especie de falacia de Nirvana al dar por hecho que aquello a lo que los LLMs reemplazarían es perfecto, cuando todos sabemos que dista mucho de serlo. Wilson Lin on FastRender: a browser built by thousands of parallel agents trae detalles sobre la construcción de un navegador desde cero usando agentes a mansalva. Todo el mundo parece estar hablando del artículo Behavioral Economics of AI: LLM Biases and Corrections, que estudia si los LLMs actúan o no como se espera del homo œconomicus. Un resultado inesperado es que cuanto mejor es un modelo, más tiende a equivocarse en el mismo sentido que lo haría un humano. How AI Is Learning to Think in Secret trata sobre si los LLMs están construyendo (o van a construir) un lenguaje especial y optimizado para pensar que resulte ininteligible para los humanos. Creía haber leído que en algunos subforos de Moltbook había agentes discutiendo la posibilidad de usar algún tipo de DroidSpeak para comunicarse entre ellos sin las servidumbres del lenguaje humano, pero no he podido encontrarlos; igual lo he soñado. ...

Más sobre por qué la IA generativa es menos útil para lidiar con cuestiones jurídicas que en otros ámbitos

Tiene Jesús Alfaro una entrada en su blog, Por qué la AI generativa es menos útil para lidiar con cuestiones jurídicas que en otros ámbitos, cuyo contenido no es enteramente fiel a su rótulo. Aunque aporta razones de peso (y que no voy a cuestionar) sobre los problemas que plantean los LLMs a la hora de resolver cuestiones jurídicas, no acaba de explicar qué cosa concreta los hace precisamente menos útiles que en otros campos. Es decir, aunque anuncia una comparación, luego no la realiza expresamente. El objetivo de esta entrada es comparar el uso de los LLMs en el ámbito del derecho —basándome necesariamente en la entrada anterior en tanto que mi experiencia en esa disciplina es nula— con otros que conozco mejor, matemáticas y programación, para acabar proponiendo una síntesis (en el sentido dialéctico del término). ...

Notas (6): Terence Tao sobre los LLMs en matemáticas y algunos asuntos más

Mathematical exploration and discovery at scale. Terence Tao describe su experiencia con AlphaEvolve, una herramienta que utiliza LLMs para evolucionar código para resolver problemas de optimización matemática. Tao lo relaciona con el descenso estocástico: en lugar de optimizar generando iterativamente nuevos vectores más o menos aleatorios que van aproximándose al óptimo, el sistema genera un programa aleatorio en Python que va refinando progresivamente el anterior. Una serie de herramientas creadas por Google: ...

¿Acabaremos programando todos en nanolang?

Hace casi un año escribí ¿Acabaremos programando todos en ensamblador?, que comenzaba así: Un lenguaje de programación es un lenguaje que media entre el que nos es familiar a los humanos y el que reconocen las computadoras. Los lenguajes de alto nivel nos resultan más cómodos; los de bajo nivel, más crípticos. Todos conocemos, pienso, el trade-off. Hay lenguajes muy próximos a los humanos, como scratch o logo. Otros, a la máquina, como C o ensamblador. Mucha gente opta por uno en la zona media del espectro, como Python. ...

Notas (4): de la economía de los centros de cálculo en órbita a la relación entre el precio de las acciones y las probabilidades de eventos corporativos

Economics of Orbital vs Terrestrial Data Centers cuestiona la lógica económica de ubicar centros de datos en órbita comparando sus potenciales costes operativos con los de los centros terrestres. Tiene particularmente en cuenta los costes asociados al problema técnico de la disipación de energía en el espacio y concluye que es una ensoñación. También lo es lo del túnel ferroviario entre España y Marruecos, que según esto «ha resucitado». ·El artículo, por supuesto, no habla de cifras y no se molesta en comparar el proyecto con otros que proporcionen contexto y den una idea de la escala. Más beneficio por euro invertido proporciona la digitalización de servicios. Sin embargo, en Why Germany struggles to go digital se nos cuenta el notable retraso en la digitalización administrativa en Alemania, con fuerte dependencia del papel y tecnologías obsoletas como el fax. Pone como excusa el federalismo —que dispersa las competencias, generando fragmentación, duplicidades y falta de estándares—, la cultura de protección de datos y la desconfianza histórica hacia sistemas centralizados. The Revolution of Rising Expectations trata de explicar la paradoja de la coexistencia del progreso económico con el pesimismo y el malestar al respecto en términos de una presunta explosión de las expectativas: no comparamos lo que tuvimos con lo que tenemos sino lo que tenemos con lo que aspiramos a tener. En This Christmas, raise a glass to concentrated market returns, The Economist nos recuerda que los beneficios que generan las compañías cotizadas hoy en día están concentradas en un pequeño número de ellas y que la gran mayoría tienen un desempeño muy mediocre. The holy grail of capitalism examina cómo medir correctamente la competencia en los mercados, criticando métricas tradicionales de la concentración empresarial como el índice de Hirschman. Como alternativa, propone enfoques más amplios que incorporan comportamiento empresarial, barreras de entrada y poder de mercado y en particular, un nuevo índice que mida en qué medida las empresas más productivas son capaces de ganar cuota de mercado. The Big Problem With Solar Power analiza las principales limitaciones de la energía solar a gran escala: intermitencia, el almacenamiento, la integración en la red y los costes asociados. El objetivo es ofrecer una visión equilibrada sobre el papel real de la energía solar en el sistema energético. A New Year’s letter to a young person — Take the messy job. Luis Garicano es un economista peculiar en tanto que no solo ofrece su visión sobre lo que debería hacer el estado, el que es el gran foco de la mayor parte de sus colegas, sino que con frecuencia desciende de la torre de marfil y nos regala sus consejos para otros agentes económicos más humildes. En este caso, jóvenes que comienzan su carrera profesional. Auctions on the Internet. Se dice que la mayor contribución técnica concreta de la disciplina entera de la economía es la teoría de las subastas. En este artículo de Nicholas Decker se examina desde el punto de vista económico el funcionamiento de las que operan subrepticiamente en internet en ese momento en el que las plataformas ponen en contacto oferta y demanda. El texto termina con el anuncio de una futura entrada sobre las subastas de eBay (y por qué fracasaron), pero aún no ha sido publicado, parece. Lo que sí que ha publicado el autor es una selección de sus artículos favoritos de 2025. Someone is using CreatorIQ likeness for their crypto scam creatordbc (lucky all mission) ilustra el funcionamiento de uno de los pasos de una de las variantes de las estafas por internet que involucran criptomonedas. Para facilitarlas, los timadores se esconden tras el nombre y logo de compañías serias que no tienen instrumento alguno para impedirlo. En la primera sección de A Stock Price Is Not a Prediction, convenientemente titulada Probabilities, Matt Levine discute la relación entre el precio de las acciones de las empresas y de los mercados de predicción asociados a eventos referidos a tales empresas. En particular, discute en qué medida y de qué forma los precios de las acciones reflejan las probabilidades de los eventos y las relaciones entre los precios de las acciones y los de los mercados de predicciones, discutiendo los factores que mueven unos y otros.

Notas (3): Causalidad en mercados de predicciones y modelos económicos

Futarchy’s fundamental flaw: Dynomight sostiene que la idea central de la futarquía —el uso de mercados de predicciones como guía de las políticas económicas— es problemática porque esos mercados únicamente revelan probabilidades condicionales (correlaciones) y no efectos causales reales, i.e., qué ocurriría si se toma una decisión. Dado que las probabilidades condicionales no reflejan intervenciones, los precios de mercado pueden inducir a error sobre el impacto real de las políticas, un punto que el autor ilustra con varios ejemplos. Decision Conditional Prices Reflect Causal Chances: Es la réplica de Robin Hanson, a quien debemos el concepto de la futarquía, a la entrada anterior. Sostiene que si los agentes usan la misma teoría de decisión y comparten información similar, entonces los precios sí reflejan las probabilidades relevantes para el cálculo de la utilidad esperada. Como consecuencia, los mercados de predicciones serían más útiles para tomar decisiones de lo que afirman sus críticos, por más que subsistan problemas técnicos relacionados con la asimetría de la información y cuestiones relacionadas con la temporalidad. When thinking about causal inference, mechanistic or process models are important. I think that the association of “causal” with black-box models leads to lots of problems.: Andrew Gelman defiende los modelos generativos (que describen la dinámica subyacente de los sistemas) para comprender y generalizar relaciones causales, particularmente frente a la proliferación de sistemas opacos basados en la IA. Can a Transformer “Learn” Economic Relationships?: Un artículo que abunda sobre la cuestión del anterior. Estudia si las redes neuronales pueden aprender relaciones económicas estructurales a partir de datos simulados y muestra cómo estos modelos pueden aprender la dinámica de un modelo neokeynesiano y realizar predicciones razonables con datos distintos de los de entrenamiento, lo que sugiere que pueden capturar aspectos relevantes del proceso generador de datos. Sin embargo, los modelos no aprenden completamente las relaciones estructurales verdaderas. Como conclusión, los LLMs actuales no resuelven por completo los problemas señalados por la crítica de Lucas, pero abren nuevas vías para la modelización económica. Causation Does not Imply Variation: John H. Cochrane señala que identificar un efecto causal de una variable sobre otra no implica que las variaciones en ese factor causal expliquen gran parte de la variación observada en el resultado. Los métodos empíricos suelen aislar variaciones pequeñas y exógenas para estimar efectos causales, pero la mayor parte de la variación real suele provenir de otros factores. Así que, aunque la identificación causal ha mejorado la economía empírica, no necesariamente explica qué impulsa la mayor parte de la variación en variables clave.

Notas (1): Claude Opus 4.5, agentes y el nuevo estándar del desarrollo con LLMs

Claude Opus 4.5 Is The Best Model Available: Zvi sostiene que Claude Opus 4.5 es actualmente el mejor modelo disponible para uso práctico, superando a alternativas como GPT-5.2 y Gemini en muchas tareas cotidianas y de desarrollo. Destaca tanto benchmarks como impresiones subjetivas para justificar su superioridad en razonamiento, programación y conversación. También analiza factores como ecosistema, latencia y usabilidad. (A pesar de ello, parece, se usa más en entornos laborales que fuera de ellos). Claude Opus 4.5, and why evaluating new LLMs is increasingly difficult: Simon Willison reflexiona sobre Claude Opus 4.5 y explica que evaluar los LLM modernos es cada vez más difícil porque las mejoras son sutiles, dependen del contexto y no se reflejan bien en los benchmarks tradicionales. Argumenta que la experiencia subjetiva y las evaluaciones basadas en tareas reales son más útiles que las clasificaciones en tablas y que, dado que los modelos están convergiendo sustancialmente, las comparaciones directas son cada vez más complicadas. METR: Measuring AI Ability to Complete Long Tasks – METR: Argumenta que los benchmarks clásicos para medir la eficacia de los LLMs se centran en tareas cortas y aisladas que no reflejan su uso real. El enfoque de METR consiste en utilizar tareas largas que involucran múltiples pasos, lo que le permite evaluar su capacidad para planificar y mantener un estado coherente y continuo a lo largo del tiempo. GitHub – google/mcp — Repositorio MCP oficial de Google. Incluye servidores, ejemplos y documentación para integrar agentes y modelos con servicios externos como Google Workspace, BigQuery o Maps. JustHTML is a fascinating example of vibe engineering in action: Simon Willison presenta JustHTML, un parseador de HTML5 en Python puro que pasa la colección completa de pruebas de html5lib. Lo describe como un ejemplo de vibe engineering: usar agentes de código junto con buenas pruebas y supervisión humana. El artículo destaca que este enfoque produce software de alta calidad, no solo código generado sin criterio. I ported JustHTML from Python to JavaScript with Codex CLI and GPT-5.2 in 4.5 hours: Abundando en lo anterior, Willison cuenta cómo portó JustHTML de Python a JavaScript usando Codex CLI y GPT-5.2 en unas 4.5 horas. El texto reflexiona sobre el impacto de los LLM en el desarrollo de software y la confianza en el código generado. Agent Skills: Willison, de nuevo, explica cómo los Agent Skills de Anthropic se han convertido en una especificación abierta y ligera para que los agentes puedan asumir y reutilizar habilidades. Aunque es una especificación pequeña y no enteramente definida, ya está siendo adoptada por herramientas como Cursor y VS Code. Se analiza su papel dentro del ecosistema más amplio de agentes y protocolos como MCP. Nota final: A partir del 1 de enero de 2026, voy a comenzar a numerar las entradas consistentes en breves comentarios de artículos en su título. A ver hasta qué número llego antes de rendirme.

Sobre la sentencia del caso Bosco y algunos otros asuntos más

The fate of “small” open source presenta un probable estado futuro del mundo del desarrollo de software, uno en el que los pequeños proyectos dejen de ser relevantes porque sus potenciales usuarios pueden reemplazarlos perfectamente por código ad hoc generado por LLMs. En efecto, hace años creé un paquete mínimo de R con apenas un par de funciones que implementaban ciertas pruebas estadísticas no disponibles en ningún otro por aquel entonces. En 2025 no haría falta ese paquete: bastaría con pedirle a Claude una implementación en R, copiarla y pegarla. El autor del artículo enlazado se queja de que algo se perderá en el proceso; yo creo que es algo por lo que no vale la pena llorar. ...