Estadística Bayesiana

El "teorema" sobre las sumas de lognormales no es solo falso sino que, además, es innecesario (en muchos casos)

I.

Hace un tiempo, reproduje el enunciado del siguiente teorema:

La suma de lognormales (independientes y con parámetros similares) es lognormal.

El teorema no es cierto. No puede serlo tanto por motivos teóricos como meramente empíricos. Es fácil

  1. tomar 3000 muestras de una lognormal con parámetros cualesquiera,
  2. sumarlos por tríos para obtener 1000 muestras $x_i$ de su suma,
  3. ajustar la mejor lognormal que se ajusta a ellos (pista: si se usa MV, los parámetros ajustados son la media y la desviación estándar de $\log x_i$),
  4. comparar las dos muestras (p.e., vía qqplots).

II.

Pero sí que es cierto que:

¿Cuántas iteraciones necesita mi MCMC?

Es el tema de este reciente artículo de Gelman. Cabe esperar que algunos se sientan decepcionados porque no tenga solo una página en la que se lea algo así como: usa cuatro cadenas de 4000 iteraciones, 1000 de ellas de warmup. Lo siento: son 26 páginas y sin recetas copy-paste.

Tampoco puedo añadir nada de sustancia a lo que ahí se cuenta. Me voy a limitar a subrayar una idea e ilustrarla con un caso con el que me enfrenté hace unos años.

Charla en la U. de Oviedo sobre sistemas de recomendación con el objetivo de ilustrar aspectos relevantes y frecuentemente olvidados de la estadística bayesiana

El lunes día 13 (de noviembre de 2023), a las 17:15, hablaré de sistemas de recomendación como excusa para ilustrar algunos aspectos relevantes y frecuentemente olvidados de la estadística bayesiana. Entiendo que aunque la charla esté dirigida a los estudiantes del grado de ciencia de datos de la Universidad de Oviedo, la asistencia tanto presencial como remota está abierta al público. Entiendo también que la charla se grabará y que quedará disponible.

Más sobre extensiones (bayesianas, pero no necesariamente) del t-test

En Improving Research Through Safer Learning from Data, Frank Harrell, junto con otros consejos muy provechosos para aquellos investigadores que tengan un compromiso más serio con la rectitud metodológica que con el desarrollo de su carrera profesional, menciona a modo de ejemplo una solución propuesta por Box y Tiao (en el tercer capítulo de esto) al problema del t-test en el caso de que no rija la hipótesis de normalidad. Más propiamente, en casos en los que se sospecha que la desviación con respecto a la normalidad lo es en términos de la curtosis (y no la asimetría).

De cómo la estadística bayesiana ha descompuesto la solución a un problema que la estadística clásica tenía plusquamsolucionado

I.

Voy a plantear el problema del día en el contexto más simple y familiar para la mayoría que se me ocurre: una ANOVA para comparar dos tratamientos. Se puede representar de la forma

$$y_i \sim \alpha + \beta_{T(i)} + \epsilon$$

donde $T(i)$ es el tratamiento, $A$ o $B$, que recibe el sujeto $i$. Parecería que el modelo estuviese sugiriendo determinar tres parámetros, $\alpha$, $\beta_A$ y $\beta_B$, correspondientes al efecto sin tratamiento y los efectos adicionales de los tratamientos $A$ y $B$. Sin embargo, si $\hat{\alpha}$, $\hat{\beta}_A$ y $\hat{\beta}_B$ es una solución, también lo es $\hat{\alpha} + \lambda$, $\hat{\beta}_A - \lambda$ y $\hat{\beta}_B - \lambda$ para cualquier $\lambda$. ¡No hay solución única (sino, más bien, una recta entera de soluciones)!

Coeficientes "no identificables": un ejemplo y sus consecuencias

Hoy voy a abundar sobre el modelo 3PL que ya traté el otro día. En particular voy a contrastar críticamente varios modelos alternativos sobre los mismos datos.

I.

El modelo que implementé (aquí) puede describirse así:

$$r_{ij} \sim \text{Bernoulli}(p_{ij})$$ $$p_{ij} = p(a_i, d_j, …)$$ $$a_i \sim N(0, 1)$$ $$d_j \sim N(0, 1)$$ $$\dots$$

donde

$$p = p(a, d, \delta, g) = g + \frac{1 - g}{1 + \exp(-\delta(a- d))}$$

y $a_i$ y $d_j$ son la habilidad del alumno $i$ y la dificultad de la pregunta $j$ respectivamente. Nótese además cómo en $f$ estas dos variables intervienen solo a través de su diferencia, $a - d$.

Una "app" para la selección de parámetros de prioris informativas

Un ejemplo de caso de uso: uno de los parámetros de tu modelo está relacionado con la duración de algo. El cliente, que tiene 20 años de experiencia en la cosa te dice: el tiempo está típicamente comprendido entre uno y siete días. Por lo tanto, decides introducir en tu modelo una priori informativa gamma que con una alta probabilidad asigne valores en el intervalo $[1, 7]$. Pero, ¿cuáles son sus parámetros?

Descuento hiperbólico: una perspectiva bayesiana

Por un lado, nos enseñan que para descontar flujos de caja futuros tenemos que usar la función exponencial —para una determinada tasa de descuento o, en algunos contextos, tipo de interés—:

$$\text{valor presente} = A \exp(-tr)$$

donde $A$ es una cierta cantidad que recibiremos en el momento futuro $t$ y donde $r$ es nuestra tasa de descuento.

Por otro lado, experimentos de la sicología y la economía conductual, parecen indicar que la gente se tiende a regir por una regla distinta, la del llamado descuento hiperbólico

Nuevo vídeo en YouTube: "Sobre chatGPT"

Aunque lo publiqué ya hace unos días, aquí llega formalmente el anuncio de mi vídeo sobre chatGPT:

Tiene una primera parte en la que hablo de cosas que hace bien, regular y mal y una segunda en la que investigo su dimensión moral.