Carlos J. Gil Bellosta

Los LLMs y la devaluación del conocimiento legible

A la hora de evaluar el potencial impacto de los LLMs en el mercado laboral, tanto en general como en el más concreto de la ciencia de datos y la estadística, es conveniente distinguir entre tipos de conocimiento. En esta entrada voy a considerar una dimensión muy particular en la que la inteligencia de los LLMs y la humana operan de manera muy distinta: la de la legibilidad de la información y el conocimiento. ...

Notas (11) sobre LLMs: sistemas de productividad personal, aplicaciones para la investigación, etc.

Con cada nueva tecnología, aparece al menos un estudio que la usa para tratar de revivir la frenología. El turno ahora es para AI Personality Extraction from Faces: Labor Market Implications. El economista John Cochrane ha probado Refine, un agente diseñado específicamente para revisar críticamente artículos académicos, y nos cuenta cómo los comentarios recibidos son mejores que los de la mayoría de los revisores humanos, destacando la capacidad de Refine para identificar contradicciones y lagunas. ...

«Peak population» por municipios

El otro día me entretuve en crear tras ver en Twitter. Muestra, municipio a municipio, el año (censurado por la izquierda en 1996) en el que se alcanzó la población máxima de acuerdo con los datos del padrón. Notas: Como he dicho, la API del INE solo ofrece datos de los últimos 30 años. Los datos anteriores, quién sabrá dónde estarán. He usado el término censura en su acepción estadística. No me he entretenido en representar Canarias. Lo siento. Gran parte del código ha sido desarrollado por Claude. Claude ha sabido, de hecho, identificar la llamada a la API del INE necesaria para bajar los datos correspondientes. El INE ha puesto a disposición de los usuarios un paquete, ineapir que facilita la descarga de datos de sus APIs. Bien. Los límites de los municipios los he bajado en formato GeoJSON del portal del Instituto Geográfico Nacional. Y el código, a continuación (por si alguien quiere seguir jugando con él). ...

Notas (10) sobre economía: del auge de la IA a los artefactos de la paradoja de Simpson los argumentos alrededor de la productividad

Measuring Efficiency and Equity Framing in Economics Research. Tyler Cowen glosa un artículo que utiliza LLMs para analizar más de 27k artículos económicos publicados entre 1950 y 2021 para concluir que el interés por la eficiencia alcanzó su punto máximo a finales de los años ochenta para ser progresivamente desplazado por el interés en la equidad. The Economist As Reporter. Nicholas Decker argumenta que la IA acelerará radicalmente las tareas mecánicas de la investigación económica, liberando a los economistas para hacer algo más parecido al periodismo de investigación: identificar problemas reales, construir argumentos empíricos rigurosos y comunicar los hallazgos al público. ...

Teoría de la decisión bayesiana con NumPyro

Daniel Saunders tiene una entrada en su blog, A Bayesian decision theory workflow en el que utiliza PyTensor para resolver un problema de teoría de la decisión bayesiana (¿es realmente necesario el apellido?) y cuya solución es $3.291507977689139$. El maestro Juan Camilo Orduz —de quien no se puede dejar nunca de aprender— lo replicó en A Bayesian Decision Theory Workflow: Port to NumPyro para obtener $3.27928950$ como solución. Yo ahora recojo el guante y, por lo de bayesiano, llego a ...

Notas (9): Algunos enlaces y comentarios sobre temas estadísticos

Mills ratio and tail thickness — John D. Cook nos habla de la razón de Mills ($\int_x^\infty f(t) dt / f(x)$) para estudiar el grosor de las colas de las distribuciones de probabilidad. Por ejemplo, aunque una distribución t con muchos grados de libertad es muy similar a una normal en la parte central, la razón de Mills las distingue claramente por su distinto comportamiento en las colas. What is “workflow” and why is it important? — Sobre el flujo de trabajo del análisis de datos (con inspiración bayesiana), según Andrew Gelman (y sus coautores). R Workflow es la reinterpretación de Frank Harrell del mismo asunto. ...

Sobre un inesperado factor que convierte subrepticialmente una distribución a priori en informativa

La distribución predictiva a priori es la que se obtiene de un modelo a partir de las prioris, antes de ver datos o realizar ajustes. Se utiliza para evaluar el grado en que las prioris elegidas están dentro de rango y no generan datos que no se parecen en nada a los que se espera por conocimiento previo. El libro Bayesian Modeling and Computation in Python discute las distribuciones predictivas a priori en su segundo capítulo. Allí argumenta alrededor de dos ejemplos. El primero está elegido a propósito para defender el caso de las prioris informativas frente a las objeciones de sus innumerables escépticos. El segundo es más intrigante. Muestra el gráfico ...

Notas (8): código generado por humanos, código inspirado por humanos

Jeff Soules dio una charla sobre buenas prácticas de programación (particularmente acerca de técnicas para mejorar la legibilidad del código) y publicó las correspondientes diapositivas. Guillermo Luijk siempre escribe cosas interesantes. De entre sus últimas: Optimizando el paseo de perros con R Distribuciones normales en la torre de Pisa Perspectiva aérea desde mapa de elevaciones con C++ A Software Library with No Code describe un experimento que muchos considerarán distópico: usando LLMs, se pueden crear y compartir abstracciones reutilizables; en este caso concreto, descripciones detalladas sobre cómo debería funcionar una determinada librería pero sin escribir una sola línea de código tradicional. El usuario de esta metalibrería utilizaría un LLM para obtener una implementación en el lenguaje objetivo de su elección: Python, etc. Hay gente que utiliza LLMs para portar librerías de un lenguaje a otro; esta metalibrería representa un pequeño nivel adicional de abstracción: la descripción de lo que ha de hacer no está descrita en código sino en instrucciones verbales precisas e interpretables por los LLMs. Habría que ver si el lenguaje natural es preferible a código —que es una forma concreta de seudocódigo— para describir lo que se espera de la librería; porque lo que se espera de este (del código) es que sea más específico y menos ambiguo que aquel (el natural) a la hora de describir algoritmos fielmente.

¿Cómo funcionan los addons de Kodi para bajar películas piratas?

Hoy voy a dejar escritas una serie de cosas que he aprendido últimamente investigando sobre un asunto que no es del interés de la gente de bien. La gente de bien, para ver películas (etc.) paga suscripciones a proveedores como Netflix y no se mete en berenjenales. Pero otros usan herramientas tales como addons truchos de Kodi con la esperanza —no siempre realizada— de poder ver películas gratis total. Lo que sigue describe lo que uno descubre cuando investiga cómo hacen esos addons para ofrecer contenidos y cuáles son los sistemas subyacentes que explotan o tratan de explotar. Antes de continuar, no obstante, quiero que consten varias salvedades: ...

Notas (7): de la eficiencia energética de los LLMs hasta su «lenguaje secreto»

Electricity use of AI coding agents es el enésimo intento para desactivar ese meme de que por culpa de los LLMs vamos a quedarnos sin planeta. Persuasion of Humans Is the Bottleneck discute el verdadero cuello de botella en el despliegue de los LLMs: el operador humano. Además del marco legal (y la responsabilidad asociada a él) en el que operan la mayor parte de las organizaciones humanas. Eso sí, incurre en una especie de falacia de Nirvana al dar por hecho que aquello a lo que los LLMs reemplazarían es perfecto, cuando todos sabemos que dista mucho de serlo. Wilson Lin on FastRender: a browser built by thousands of parallel agents trae detalles sobre la construcción de un navegador desde cero usando agentes a mansalva. Todo el mundo parece estar hablando del artículo Behavioral Economics of AI: LLM Biases and Corrections, que estudia si los LLMs actúan o no como se espera del homo œconomicus. Un resultado inesperado es que cuanto mejor es un modelo, más tiende a equivocarse en el mismo sentido que lo haría un humano. How AI Is Learning to Think in Secret trata sobre si los LLMs están construyendo (o van a construir) un lenguaje especial y optimizado para pensar que resulte ininteligible para los humanos. Creía haber leído que en algunos subforos de Moltbook había agentes discutiendo la posibilidad de usar algún tipo de DroidSpeak para comunicarse entre ellos sin las servidumbres del lenguaje humano, pero no he podido encontrarlos; igual lo he soñado. ...