Llms

Dice Gaussianos:

Siguiendo la tradición desde 2012, vuelve el Desafío Matemático RSME-El País de Navidad. Este año, como hace ya tiempo, de nuevo es Adolfo Quirós (profesor de la Universidad Autónoma de Madrid (UAM) y director de La Gaceta de la Real Sociedad Matemática Española) quien nos lo presenta.

El problema es el siguiente:

El desafío comienza cuando elegimos dos números de la Lotería de Navidad (recordemos que tienen 5 cifras), con la única condición de que cumplan estos dos requisitos:

Poesía

Hace poco se publicó un artículo en el que se estudiaban los resultados de un estudio ciego en el que a una serie de sujetos se les presentaban poemas escritos sea por humanos o por LLMs y se les preguntaba su opinión al respecto. No he leído el artículo, pero aquí están las opiniones no enteramente coincidentes al respecto de Tyler Cowen y de Jessica Hullman.

Ajedrez

Uno de los resultados más sorprendentes del prehistórico GPT-2 es que había aprendido a jugar al ajedrez sin que nadie le hubiese enseñado explícitamente. Cuatro años después, Dynomight ha retomado el asunto y ha escrito esto y esto.

Artefactos de Claude

Uno de los aplicaciones derivadas de los LLMs que más satisfacciones me están dando son los artefactos de Claude (véase, por ejemplo, esto).

Es complicado en todo caso ejecutar aplicaciones web generadas por Claude (vía artefactos) por defecto sin haber configurado previamente un entorno en node con las dependencias adecuadas. Los artefactos están pensados para, por defecto, ser alojados por Claude directamente. Si uno quiere bajar el código y correrlos en su propia máquina, tiene que hacerlo en un entorno en el que existan las dependencias correspondientes.

I.

En The “it” in AI models is the dataset se sostiene algo que ya traíamos sabido: que los modelos (incluidos los LLMs) son resúmenes de los datos con los que se entrenan:

Así, cuando hablas de “Lambda”, “ChatGPT”, “Bard” o “Claude” no te refieres a los pesos del modelo sino al conjunto de entrenamiento.

II.

Hablar de hardware en el contexto de los LLMs parecería casi exclusivamente hablar de NVIDIA, pero no solo. El modelo es el siguiente:

En la entrada de hoy recopilo unas cuantas aplicaciones de los LLMs.

Enlazo una entrevista a Tyler Cowen discutiendo cómo usa los GPTs. Según extrae NotebookLM de su transcripción, sus principales casos de uso son:

Investigar hechos históricos oscuros.
Traducir cualquier cosa.
Obtener información sobre menús en restaurantes el extranjero.
Identifciar plantas y pájaros.
Comprender temas complejos y generar preguntas para entrevistas.
Obtener información a partir de los diarios personales.
Entender las necesidades de su perro.

Aquí, una charla de Simon Willison sobre LLMs en general y sus aplicaciones en particular.

I. Lo que hemos aprendido

Una serie de tres entradas (táctica, estrategia y operaciones) sobre todo lo que hemos aprendido en el tiempo que llevamos desarrollando aplicaciones con LLMs.

II. Prompts

El modelo CO-STAR (contexto, objetivo, estilo, tono, audiencia y respuesta) me ha resultado muy útil para ciertas aplicaciones. Aunque, un día que no es el de hoy, será posible automatizar la búsqueda de prompts efectivos.

III. GPT-2

Cuando apareció, GPT-2 parecía realmente magia. Pero hoy se puede entrenar en hora y media por veinte dólares.

I. Visualización

Recopilo aquí cuatro enlaces vagamente hermanados por su relación con la visualización (y los LLMs):

Exploración interaectiva de la arquitecturas de ciertos LLMs, aquí.
Una visualización/animación sobre cómo funcionan los transformers, aquí.
Aquí, en vídeo.
Y dos para tokens, este y este.

II. Inteligencia

Dos discusiones, esta y esta, sobre la inteligencia de los LLMs. De la primera rescato eso de que estamos moviendo constantemente la portería de eso que llamamos inteligencia. De la segunda, la vinculación de lo que hacen actualmente los LLMs con el pensar deprisa y despacio de Kahneman.

I.

Hay gente que estudia el funcionamiento del cerebro. Una de las cosas que buscan es tratar de relacionar funciones cognitivas con regiones concretas. Para eso usan MRI, electrodos, etc. Yo qué sé. Un problema al que se enfrentan los investigadores es que estos procedimientos son o muy intrusivos, o tienen mucho ruido o ambos a la vez.

Hay gente que busca entender de manera similar los LLMs y responder a preguntas del tipo: ¿es posible identificar coeficientes (o grupos de coeficientes) relacionados con conceptos concretos? Además, examinar los coeficientes de un LLM es mucho más sencillo que estudiar sinapsis de lejos. De todos modos, no está claro, a priori, que tenga que ocurrir de esa manera, es decir, que tengan que existir regiones (no necesariamente físicamente colindantes) de los coeficientes que estén vinculadas unívocamente a un concepto determinado.

Esta es la función de Rosenbrock, también conocida como función plátano o —en algunos contextos— como el coco:

Es una de esas funciones contra la que tienen que demostrar su valía los algoritmos de optimización que los matemáticos discurren por ahí. La función ilustra uno de los problemas habituales de la optimización: las variables se confabulan para que las ideas simples no funcionen: los gradientes no apuntan hacia el mínimo, este se encuentra en un valle estrecho, etc. Y que conste que las he visto peores en la práctica.

Hay gente que discute a veces sobre cuál es el carro y cuál es el burro en el binomio ciencia-ingeniería. Mi opinión al respecto es irrelevante porque no va a cambiar nunca nada en ninguna parte. Pero aquél que quiera asentar la suya, debería leer con atención y desde esa perspectiva Will We Ever Get Fusion Power?.

Lectura de la que extraigo (y, por el camino, traduzco):

El entusiasmo por los tokamaks coincidió con un alejamiento de la teoría y un retorno a la investigación basada en el “constrúyelo y mira a ver qué aprendes”. Nadie sabía realmente por qué los tokamaks lograban resultados tan impresionantes. Los soviéticos no progresaron desarrollando un fundamento teórico sólido, sino simplemente siguiendo lo que parecía funcionar sin entender por qué. En lugar de un modelo detallado del comportamiento subyacente del plasma, el progreso en la fusión comenzó a producirse mediante la aplicación de “leyes de escala”, relaciones empíricas entre el tamaño y la forma de un tokamak y varias medidas de rendimiento. Los tokamaks más grandes funcionaban mejor: cuanto mayor el tokamak, más grande era la nube de plasma y más tiempo tardaba una partícula de esa nube en escapar de la zona de contención. De duplicarse el radio del tokamak, el tiempo de confinamiento podía cuatriplicarse. Con tantos tokamaks de diferentes configuraciones en construcción, los contornos de estas leyes de escala iban a poder explorarse en profundidad: cómo variaban con la forma, la fuerza del campo magnético y otros innumerables variables.

Claude y el desafío matemático navideño de 2024

LLMs: ajedrez, poesía, "ciencia normal", "prompts" y "RAG"

Poesía

Ajedrez

LLMs: algunas herramientas (potencialmente) útiles

Artefactos de Claude

Cinco breves notas sobre LLMs

I.

II.

Unas cuantas aplicaciones de los LLMs

Mamba vs "transformers" y cuatro asuntos más

I. Lo que hemos aprendido

II. Prompts

III. GPT-2

Argumentos para discutir sobre la inteligencia de los LLMs y cuatro asuntos más

I. Visualización

II. Inteligencia

Monosemanticidad: una introducción para despistados

I.

¿Por qué es "tan fácil" la optimización en altas dimensiones?

Una lectura muy esclarecedora sobre la prelación entre ciencia e ingeniería