Cortos (sobre LLMs)

2024-3-21

I.

Does GPT-2 Know Your Phone Number? discute dos asuntos distintos:

Métodos para identificar y estimar el número de textos literales que aprende un LLM.
Un análisis ya irrelevante de cómo afectaba a GPT-2.

Obviamente, quiero que los LLMs sepan recitar literalmente la primera frase del Quijote o la última de Cien años de soledad. Y tal vez no (¿seguro que no?) información confidencial sobre alguien. Entre ambos extremos, ¿dónde está la frontera?

II.

Otra leyenda urbana sobre los LLMs es que parecen esforzarse más si se les ofrece una propina o recompensa monetaria por su trabajo. Aquí se revisa más o menos sistemáticamente la cuestión (sin que, desafortunadamente, se llegue a ninguna conclusión definitiva).

III.

De esta entrevista a Fernando Vives,presidente Garrigues, uno de los mayores bufetes de España, extraigo:

P. Han anunciado el desarrollado un modelo de inteligencia artificial generativa propio: Garrigues GAIA. ¿Cuál es el grado de madurez del mismo?, ¿qué potencial le ve a esta tecnología?

R. Todos los profesionales de Garrigues tienen acceso a una plataforma a través de su ordenador en la que encuentran dos tipos de modelos de inteligencia artificial: uno nativo, el propio, y otros externos, que son varios. Todos ellos operan sobre nuestros datos y nuestro soporte documental. Este sistema tiene varios elementos positivos. El primero es que conseguimos adaptar la tecnología a nuestra cultura o forma de hacer las cosas. Así, cuando le pedimos que haga un resumen, analice un documento o cualquier otra funcionalidad, lo hace de forma muy previsible, algo que no sucedería si trabajara sobre información pública. Estas herramientas ya están propiciando un ahorro de tiempo para las personas que lo manejan frecuentemente. ¿Exactamente cuánto tiempo? Aún no lo sabemos, pero sí nos está mostrando que, a la larga, se puede convertir en un instrumento que reduzca el esfuerzo que nos exigen hacer determinadas tareas más o menos rutinarias.

IV.

En el mismo sentido, el asistente AI de Klarna gestiona dos tercios de los chats de servicio al público en su primer mes.

V.

Para hacer inferencia con LLMs apenas es necesario realizar unas cuantas operaciones sencillas y fácilmente adivinables. Mucha de la complejidad de las CPUs está de más. Y también de las GPUs. Groq está construyendo LPUs (language processing units) que, por decirlo de alguna manera rápida y para que se entienda, son a las GPUs lo que las GPUs son a las CPUs.

VI.

Eso les permite ofrecer servicios de inferencia económicos:

(Son los precios a día de hoy de los distintos proveedores de servicios de inferencia para Mixtral tal como los recoge Artificial Analysis hoy aqui.)

VII.

No sé cómo ni cuánto durará, pero parezco tener acceso a Mixtral en la nube de NVIDIA (NGC) gratis.

VIII.

Así va hoy,

el LLM Leaderboard.

(Que puedes ayudar a construir aquí.)

IX.

Y este es el leaderboard de LLMs que llaman a funciones. (Nota: llamar a funciones, en este contexto, no significa llamar a funciones sino otra cosa; pero que es muy útil en todo caso.)

X.

Claude 3 haciendo de científico de datos en este vídeo de cuatro inquietantes minutos.

XI.

La gente no para de mover la portería a la hora de definir qué es una inteligencia artificial. Tyler Cowen, a mi parecer, da en el clavo aquí al decir:

[…] existe otra definición más, una histórica, de la IAG. ¿Habríamos dicho hace cinco años que teníamos IAG si hubiésemos visto entonces a Claude 3 Opus en acción? Desde un punto de vista descriptivo, creo que la respuesta a esa pregunta es sí […]. En ese sentido, ya tenemos IAG en este momento.

XII.

Dice Andrew Curren:

[…] Dell reveló que la Nvidia B100 Blackwell tendría un consumo de energía de 1000W, lo que representa un aumento del 40% con respecto a la H100. El cuello de botella actual en el rendimiento informático comenzará a desaparecer a finales de este año y se habrá eliminado por completo para finales de 2025. A partir de ahí, todo se centrará en la energía.

Es decir, el factor limitante en el avance de la IA, en algún momento, dejará de ser la existencia de GPUs y comenzará a ser el coste de la energía. Igual no ocurre cuando lo anuncia este tal Curren, pero acabará ocurriendo necesariamente.

XIII.

El mundo está cada vez más loco. Aquí cuenta un tipo lo siguiente:

Quiere hacer clústering de los datos de una tabla.
Convierte cada fila en un texto (del tipo “Edad, 59 años; sexo, hombre;…”)
Construye el correspondiente embedding.
Aplica k-means.

Olé.

XIV.

Siempre lo querré un poquito (hablo de inflection).

XV.

Unos cuantos ejemplos de GPT-4 rompiendo sus propias reglas aquí.

XVI.

Aparentemente, los embeddings de los tokens básicos de GPT-X están ubicados en una región del espacio (de dimensión 4096, no 3) con más o menos la siguiente forma:

Más al respecto, aquí.