Modelos

Los boxplots como "herramientas de entretiempo" y cuatro asuntos más

I.

Aquí se lee:

Puede parecer absurdo verificar un modelo comparando sus inferencias con las expectativas razonables —–si ya supiéramos qué esperar, ¿para qué modelar nada?— pero hay dos razones por las que este procedimiento nos parece razonable.

Es muy interesante también en tanto que describe la cantidad de hipótesis que entran —más bien, que alguien mete— en uno de esos modelos tan objetivos y data driven que vemos publicados por ahí.

Ajuste de modelos: Optimización vs generalización

He escrito esta entrada como una introducción a lo que se cuenta aquí, aquí y aquí sobre el asunto de la relación entre la optimización (como parte del proceso de ajuste de modelos) y la generalización (o su capacidad para aprender sobre el mundo y no solo sobre los datos de entrenamiento). En los enlaces, el lector encontrará planteadas una serie de cuestiones sobre cómo y por qué generalizan los (o cierto tipo de) modelos en lugar de, simplemente, no hacerlo.

Tutorial de numpyro (I): modelos probabilísticos

I.

Las distintas disciplinas estudian aspectos diferentes de la realidad. Para ello crean modelos. Un modelo es una representación teórica y simplificada de un fenómeno real. Por un lado, el territorio; por el otro, el mapa.

Los físicos modelan cómo oscila un péndulo y se permiten obviar cosas como el rozamiento del aire. Los economistas, la evolución del PIB o la inflación. Los biólogos, la absorción de una determinada sustancia por un tejido. Los ingenieros, el comportamiento aerodinámico de un prototipo. Etc.

Coeficientes "no identificables": un ejemplo y sus consecuencias

Hoy voy a abundar sobre el modelo 3PL que ya traté el otro día. En particular voy a contrastar críticamente varios modelos alternativos sobre los mismos datos.

I.

El modelo que implementé (aquí) puede describirse así:

$$r_{ij} \sim \text{Bernoulli}(p_{ij})$$ $$p_{ij} = p(a_i, d_j, …)$$ $$a_i \sim N(0, 1)$$ $$d_j \sim N(0, 1)$$ $$\dots$$

donde

$$p = p(a, d, \delta, g) = g + \frac{1 - g}{1 + \exp(-\delta(a- d))}$$

y $a_i$ y $d_j$ son la habilidad del alumno $i$ y la dificultad de la pregunta $j$ respectivamente. Nótese además cómo en $f$ estas dos variables intervienen solo a través de su diferencia, $a - d$.

Un duelo de aforismos sobre datos

El primero,

In God we trust. All others must bring data.

de W. E. Deming, es pura estadística pop. El segundo, con el que tropecé releyendo unas presentaciones de Brian Ripley, dice

No one trusts a model except the person who wrote it; everyone trusts an observation, except the person who made it.

y parece ser que se la debemos a un tal H. Shapley.

Efectivamente, hoy en día desconfiamos de los modelos pero depositamos una gran confianza en los datos. Pero de eso se sale: basta con hablar un rato con la gente encargada de recopilarlos.

Si no podemos dilucidar si algo crece lineal o exponencialmente, ¿qué podemos saber?

Todos sabemos qué es el crecimiento lineal y el exponencial. Todos sabemos que las funciones lineales y exponenciales tienen un aspecto muy distinto. Sería ocioso —¿insultante incluso?— sustentar gráficamente esas afirmaciones.

Por eso me llamó grandemente la atención el reciente artículo de Thomas Philippon, Additive Growth, que comienza, con mi traducción, así:

De acuerdo con el libro de texto de Solow de 1956, los modelos de crecimiento económico dan por hecho que la PTF [productividad total de los factores] crece exponencialmente: $dA_t = gA_tdt$, donde $A$ es la PTF y $g$ es o bien constante o prácticamente constante. Yo [T. Philippon] he examinado datos de muchos países y periodos y he encontrado que, en casi todos los casos, el crecimiento de la productividad es de hecho lineal: $dA_t = bdt$ donde $b$ es una constante, al menos durante largos periodos históricos.

Más sobre el exceso de mortalidad en noviembre de 2021

Esta entrada abunda sobre la que publiqué hace unos días y va a tener un enfoque mucho más general y estadístico.

La idea fundamental es la siguiente:

  • Un modelo estadístico es una idealización de la realidad.
  • Es una idealización en tanto que descarta información. Lo deseable sería que los modelos incorporasen toda la información relevante disponible respecto al fenómeno al que se refieren —y de ahí la ventaja que muchos ven en la estadística bayesiana—, pero eso resulta imposible.
  • Por lo tanto, cuando un modelo falla el primer sospechoso es algún tipo de información que hubiéramos querido incorporar al modelo pero que se ha quedado fuera.

En el caso que discutí el otro día, la información que ignora el modelo es que el de noviembre de 2021 fue uno particularmente frío. Sabemos que la temperatura influye mucho en la mortalidad y sabemos que noviembre fue un mes particularmente frío. Por lo tanto, cabe esperar que se infraestime la mortalidad real.

Sobre el exceso de mortalidad en noviembre de 2021

[Nota: trabajé —pero desde hace muchos meses ya no— en MoMo. Así que algo sé al respecto. No obstante, las opiniones reflejadas aquí son enteramente mías. Además, están escritas desde una perspectiva estadística, no epidemiológica o, por extensión, médica.]

Han aparecido ciertas noticias en prensa acerca del exceso de mortalidad reflejado por MoMo —más sobre MoMo, aquí— durante el mes de noviembre de 2021 (véase esto o esto). La tónica general de los artículos es la del desconcierto de los expertos, que ni se explican ni se atreven a explicarnos posibles motivos del repunte de la mortalidad.

Estadística vs siquiatría: la aparente contradicción, la profunda síntesis

[Nota: esta entrada está indirectamente motivada por mi asistencia a la presentación (y posterior adquisición) del libro “Los peligros de la moralidad” de Pablo Malo hoy día 3 de diciembre de 2021.]

Desde Freud hasta Pablo Malo son muchos los siquiatras que han intervenido en el debate público aportando su visión sobre distintos temas.

Desde ¿quién? hasta ¡tantos! son innumerables los estadísticos que han intervenido (generalmente, de modo implícito) en el debate público aportando su visión sobre distintos temas.

Causalidad inversa: más sobre los momentos "Le Verrier"

Escribí el otro día sobre los llamados momentos Le Verrier. Que, siguiendo la nomenclatura de Why ask why? Forward causal inference and reverse causal questions no son otra cosa que ejercicios de causalidad inversa con final feliz.

Efectivamente, según el artículo, las cuestiones de índole causal son de dos tipos: prospectivas y retrospectivas (o inversas), en una traducción muy libre. Las primeras, más habituales, se refieren a cuáles serán los efectos de una causa. ¿Qué pasará si aumento mi presupuesto de publicidad? ¿Qué pasará con la temperatura de un dispositivo si aumento la potencia? Etc. Son preguntas a las que responden los modelos, sea a través del estudio de una serie de coeficientes, realizando predicciones, etc.

¿Qué modelas cuando modelas?

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta.

La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés $latex Y$ depende de $latex X_i$ a través de una relación del tipo

La interpretación de "significativo" en un caso muy concreto

Comienzo por el final:

En el gráfico anterior se aprecian unos datos, generados mediante

n <- 100
x <- 1:n

y_base <- cos(2 * pi * x / 100)
y <- y_base + rnorm(n, 0, .4)

datos <- data.frame(x = x, y_base = y_base, y = y,
                    cos1 = cos(2 * pi * x / 100),
                    cos2 = cos(4 * pi * x / 100))

a los que se ha ido añadiendo un ruido progresivamente, es decir, una serie de outliers artificiales.

Las líneas rojas representan la predicción realizada mediante un modelo de segundo orden de Fourier (si se me permite), es decir,

Explicación de los scorings de "ciertos" modelos

Esta entrada la hago por petición popular y para rematar de alguna manera lo que incoé hace unos días. Seré breve hasta lo telegráfico:

  1. Tomo las observaciones con scorings más altos (en un árbol construido con ranger y cariño).
  2. Veo cuáles son los árboles que les asignan scorings más altos.
  3. Anoto las variables implicadas en las ramas por donde bajan las observaciones (1) en los árboles (2).
  4. Creo una matriz positiva: filas = casos, columnas = variables, valores = conteos.
  5. Y la descompongo (vía NMF). 6. Etc.

Es hasta paquetizable.