Carlos J. Gil Bellosta

I. Lo que hemos aprendido Una serie de tres entradas (táctica, estrategia y operaciones) sobre todo lo que hemos aprendido en el tiempo que llevamos desarrollando aplicaciones con LLMs. II. Prompts El modelo CO-STAR (contexto, objetivo, estilo, tono, audiencia y respuesta) me ha resultado muy útil para ciertas aplicaciones. Aunque, un día que no es el de hoy, será posible automatizar la búsqueda de prompts efectivos. III. GPT-2 Cuando apareció, GPT-2 parecía realmente magia.

Los jugadores $A$ y $B$ se enfrentan al ajedrez. El Elo de A y B son dos números $E_A$ y $E_B$ tales que la probabilidad de que $A$ gane la partida a $B$ es $$P(A-B) = \frac{1}{1 + 10^{(E_B - E_A) / 400}} = \frac{1}{1 + \exp(-k(E_A - E_B))}$$ para un determinado valor de $k$ que no me voy a molestar en calcular. Omitiendo la complicación de que las partidas de ajedrez pueden terminar en tablas, podríamos entender el Elo como —prácticamente— los coeficientes de una regresión logística ajustada sobre unos datos, un histórico de partidas de ajedrez, con una matriz de diseño muy particular:

I. Visualización Recopilo aquí cuatro enlaces vagamente hermanados por su relación con la visualización (y los LLMs): Exploración interaectiva de la arquitecturas de ciertos LLMs, aquí. Aquí, en vídeo. Y dos para tokens, este y este. II. Inteligencia Dos discusiones, esta y esta, sobre la inteligencia de los LLMs. De la primera rescato eso de que estamos moviendo constantemente la portería de eso que llamamos inteligencia. De la segunda, la vinculación de lo que hacen actualmente los LLMs con el pensar deprisa y despacio de Kahneman.

I. Hay gente que estudia el funcionamiento del cerebro. Una de las cosas que buscan es tratar de relacionar funciones cognitivas con regiones concretas. Para eso usan MRI, electrodos, etc. Yo qué sé. Un problema al que se enfrentan los investigadores es que estos procedimientos son o muy intrusivos, o tienen mucho ruido o ambos a la vez. Hay gente que busca entender de manera similar los LLMs y responder a preguntas del tipo: ¿es posible identificar coeficientes (o grupos de coeficientes) relacionados con conceptos concretos?

I. Las X han cumplido 40 años (y urge jubilarlas). II. Escribes código en el panel de la izquierda, eliges el compilador y ves el código generado (típicamente, ensamblador) en el panel de la derecha de esto. III. Alguien hizo ingeniería inversa de Github Copilot y escribió esto. IV. Esta aplicación convierte PDFs en podcasts. Muy alineada con las tendencias de estos tiempos que vivimos. V. Aquí no solo se estima el consumo de energía que realiza un LLM al generar texto sino que también se compara con el del sujeto al que reemplazaría.

I. Lo que hemos aprendido de lanzar al aire monedas 350757 veces. Del resumen: Hay cierta tendencia (~51%) a que la moneda caiga en el mismo sentido en que estaba al ser lanzada (i.e., que salga cara si al lanzar la moneda, la cara estaba hacia arriba). Hay mucha variación interpersonal. El sesgo decrece conforme la misma persona lanza las monedas más y más veces. II. Si alguien os pregunta de algún caso en el que se explica una cosa oscura de manera todavía más oscura, mostradles Desorden y predicción en series trimestrales.

El 1 de marzo de 2011 escribí esto anunciando un nuevo IDE multiplataforma (¡qué falta hacía!) para R. Trece años más tarde, la misma empresa nos provee de otro bien público, Positron. Aún no he podido instalar la beta pública en mi Archlinux por un conflicto con VS Code —sí, Positron parece ser un VS Code tuneado—, pero prometo una captura de pantalla una vez se arregle el asunto. En tanto, ¿qué espero de Positron?

I. Si algo aprendemos en Why any estimate of the cost of climate change will be flawed es cómo los resultados de los modelos dependen críticamente de las prioris (de todo tipo, incluso aquellas entendidas en sentido amplio que se aplican en análisis no necesariamente bayesianos). II. El artículo reseñado aquí me ha recordado esto que escribí hace tiempo. Y, a su vez, me ha permitido constatar que no tengo ninguna entrada específica sobre uno de mis resultados empíricos favoritos: el llamado teorema de la imposibilidad de la Super Bowl.

Esta es la función de Rosenbrock, también conocida como función plátano o —en algunos contextos— como el coco: Es una de esas funciones contra la que tienen que demostrar su valía los algoritmos de optimización que los matemáticos discurren por ahí. La función ilustra uno de los problemas habituales de la optimización: las variables se confabulan para que las ideas simples no funcionen: los gradientes no apuntan hacia el mínimo, este se encuentra en un valle estrecho, etc.

I. Aquí dice lo que con mi traducción suena así: El problema de la academia no es el plagiarismo. En economía, un secreto que la academia guarda celosamente es que casi toda la investigación es inválida o inútil por varios motivos. ¿Qué hacer? No leer. II. ¿Y en estadística? Aquí se cita la frase Gran parte de la estadística del siglo XX es una pérdida de tiempo consistente en calcular respuestas precisas a preguntas irrelevantes.

Hay gente que discute a veces sobre cuál es el carro y cuál es el burro en el binomio ciencia-ingeniería. Mi opinión al respecto es irrelevante porque no va a cambiar nunca nada en ninguna parte. Pero aquél que quiera asentar la suya, debería leer con atención y desde esa perspectiva Will We Ever Get Fusion Power?. Lectura de la que extraigo (y, por el camino, traduzco): El entusiasmo por los tokamaks coincidió con un alejamiento de la teoría y un retorno a la investigación basada en el “constrúyelo y mira a ver qué aprendes”.

Hace unos años argumenté sobre estimaciones e intervalos de confianza alrededor de que muestra estimaciones históricas de la velocidad de la luz. Pero (extraído de aquí) es todavía mucho más jugoso: Por un lado, como en el otro caso, ¿qué significan realmente los intervalos de confianza? Pero, además, las estimaciones se arraciman en el tiempo, y eso refleja… ¿dependencia de la tecnología disponible en el tiempo? ¿Estimaciones rebaño? Muy instructivo sobre la verdad de las cosas.

I. Una vulnerabilidad asociada a R y un análisis sobre la intrahistoria de la misma. Se refiere a la importación acrítica de ficheros binarios de datos en R, en el que un agente malicioso puede haber insertado código que no quieres ver corriendo en tu máquina. II. Hay gente que busca asociaciones en tablas con millones de celdas, la mayor parte de las cuales tienen valores 0 o 1. Es un problema con la peor de las pintas del mundo, pero hay artículo y código.

Mamba vs "transformers" y cuatro asuntos más

El Elo: prácticamente una regresión logística entrenada en línea

Argumentos para discutir sobre la inteligencia de los LLMs y cuatro asuntos más

Monosemanticidad: una introducción para despistados

Algunos apuntes sobre tecnología moderna y no tan moderna

Otro índice de sorpresa y algún que otro asunto más

Positron

Descuentos para RCTs algunos asuntos más

¿Por qué es "tan fácil" la optimización en altas dimensiones?

"El problema de la academia" y cuatro asuntos más

Una lectura muy esclarecedora sobre la prelación entre ciencia e ingeniería

Estimaciones, intervalos de confianza y todas esas cosas... ¿qué significan realmente?

Un par de novedades de R 4.4.0 y algunos otros asuntos más