Modelos

Ajuste de modelos: Optimización vs generalización

He escrito esta entrada como una introducción a lo que se cuenta aquí, aquí y aquí sobre el asunto de la relación entre la optimización (como parte del proceso de ajuste de modelos) y la generalización (o su capacidad para aprender sobre el mundo y no solo sobre los datos de entrenamiento). En los enlaces, el lector encontrará planteadas una serie de cuestiones sobre cómo y por qué generalizan los (o cierto tipo de) modelos en lugar de, simplemente, no hacerlo.

Tutorial de numpyro (I): modelos probabilísticos

I. Las distintas disciplinas estudian aspectos diferentes de la realidad. Para ello crean modelos. Un modelo es una representación teórica y simplificada de un fenómeno real. Por un lado, el territorio; por el otro, el mapa. Los físicos modelan cómo oscila un péndulo y se permiten obviar cosas como el rozamiento del aire. Los economistas, la evolución del PIB o la inflación. Los biólogos, la absorción de una determinada sustancia por un tejido.

Coeficientes "no identificables": un ejemplo y sus consecuencias

Hoy voy a abundar sobre el modelo 3PL que ya traté el otro día. En particular voy a contrastar críticamente varios modelos alternativos sobre los mismos datos. I. El modelo que implementé (aquí) puede describirse así: $$r_{ij} \sim \text{Bernoulli}(p_{ij})$$ $$p_{ij} = p(a_i, d_j, …)$$ $$a_i \sim N(0, 1)$$ $$d_j \sim N(0, 1)$$ $$\dots$$ donde $$p = p(a, d, \delta, g) = g + \frac{1 - g}{1 + \exp(-\delta(a- d))}$$ y $a_i$ y $d_j$ son la habilidad del alumno $i$ y la dificultad de la pregunta $j$ respectivamente.

Un duelo de aforismos sobre datos

El primero, In God we trust. All others must bring data. de W. E. Deming, es pura estadística pop. El segundo, con el que tropecé releyendo unas presentaciones de Brian Ripley, dice No one trusts a model except the person who wrote it; everyone trusts an observation, except the person who made it. y parece ser que se la debemos a un tal H. Shapley. Efectivamente, hoy en día desconfiamos de los modelos pero depositamos una gran confianza en los datos.

Si no podemos dilucidar si algo crece lineal o exponencialmente, ¿qué podemos saber?

Todos sabemos qué es el crecimiento lineal y el exponencial. Todos sabemos que las funciones lineales y exponenciales tienen un aspecto muy distinto. Sería ocioso —¿insultante incluso?— sustentar gráficamente esas afirmaciones. Por eso me llamó grandemente la atención el reciente artículo de Thomas Philippon, Additive Growth, que comienza, con mi traducción, así: De acuerdo con el libro de texto de Solow de 1956, los modelos de crecimiento económico dan por hecho que la PTF [productividad total de los factores] crece exponencialmente: $dA_t = gA_tdt$, donde $A$ es la PTF y $g$ es o bien constante o prácticamente constante.

Más sobre el exceso de mortalidad en noviembre de 2021

Esta entrada abunda sobre la que publiqué hace unos días y va a tener un enfoque mucho más general y estadístico. La idea fundamental es la siguiente: Un modelo estadístico es una idealización de la realidad. Es una idealización en tanto que descarta información. Lo deseable sería que los modelos incorporasen toda la información relevante disponible respecto al fenómeno al que se refieren —y de ahí la ventaja que muchos ven en la estadística bayesiana—, pero eso resulta imposible.

Sobre el exceso de mortalidad en noviembre de 2021

[Nota: trabajé —pero desde hace muchos meses ya no— en MoMo. Así que algo sé al respecto. No obstante, las opiniones reflejadas aquí son enteramente mías. Además, están escritas desde una perspectiva estadística, no epidemiológica o, por extensión, médica.] Han aparecido ciertas noticias en prensa acerca del exceso de mortalidad reflejado por MoMo —más sobre MoMo, aquí— durante el mes de noviembre de 2021 (véase esto o esto). La tónica general de los artículos es la del desconcierto de los expertos, que ni se explican ni se atreven a explicarnos posibles motivos del repunte de la mortalidad.

Estadística vs siquiatría: la aparente contradicción, la profunda síntesis

[Nota: esta entrada está indirectamente motivada por mi asistencia a la presentación (y posterior adquisición) del libro “Los peligros de la moralidad” de Pablo Malo hoy día 3 de diciembre de 2021.] Desde Freud hasta Pablo Malo son muchos los siquiatras que han intervenido en el debate público aportando su visión sobre distintos temas. Desde ¿quién? hasta ¡tantos! son innumerables los estadísticos que han intervenido (generalmente, de modo implícito) en el debate público aportando su visión sobre distintos temas.

Causalidad inversa: más sobre los momentos "Le Verrier"

Escribí el otro día sobre los llamados momentos Le Verrier. Que, siguiendo la nomenclatura de Why ask why? Forward causal inference and reverse causal questions no son otra cosa que ejercicios de causalidad inversa con final feliz. Efectivamente, según el artículo, las cuestiones de índole causal son de dos tipos: prospectivas y retrospectivas (o inversas), en una traducción muy libre. Las primeras, más habituales, se refieren a cuáles serán los efectos de una causa.

¿Qué modelas cuando modelas?

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta. La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés $latex Y$ depende de $latex X_i$ a través de una relación del tipo

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final: En el gráfico anterior se aprecian unos datos, generados mediante n <- 100 x <- 1:n y_base <- cos(2 * pi * x / 100) y <- y_base + rnorm(n, 0, .4) datos <- data.frame(x = x, y_base = y_base, y = y, cos1 = cos(2 * pi * x / 100), cos2 = cos(4 * pi * x / 100)) a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales.

Explicación de los scorings de "ciertos" modelos

Esta entrada la hago por petición popular y para rematar de alguna manera lo que incoé hace unos días. Seré breve hasta lo telegráfico: Tomo las observaciones con scorings más altos (en un árbol construido con ranger y cariño). Veo cuáles son los árboles que les asignan scorings más altos. Anoto las variables implicadas en las ramas por donde bajan las observaciones (1) en los árboles (2). Creo una matriz positiva: filas = casos, columnas = variables, valores = conteos.

Muchos cocineros con la misma receta...

[Iba a guardar un enlace a este artículo entre mis notas, pero, qué demonios, lo dejo aquí, público, porque así lo encuentro yo y lo encontramos todos.] ¿Qué pasa/puede llegar a pasar si muchos científicos de datos analizan los mismos datos en busca de una respuesta a la misma cuestión? Una de las posibles respuestas está en Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results.