Gelman

Escribe Gelman en términos irónicocelebratorios: OK, we can now officially say that Stan, as an open-source software, has recouped its societal investment. Apostilla Terry (en los comentarios), por si alguien se lo había tomado literalmente: Came here to say this. Review saved $20-$50 billion. Stan was involved in the Review. Therefore, Stan saved $20-$50 billion. AWOOOOOOOGAH!!! The economic Klaxon is deafening. Nope, nope, nope, nope. Porque siempre hay alguien sin sentido del humor.

Una técnica que, al parecer, es muy del gusto de los economistas es lo del análisis de la discontinuidad. Es como todo lo que tiene que ver con causalImpact pero usando técnicas setenteras (regresiones independientes a ambos lados del punto de corte). Si a eso le sumas que las regresiones pueden ser polinómicas con polinomios de alto grado… pasan dos cosas: Tienes una probabilidad alta de obtener un resultado significativo, i.

Muchos hablan de las cocinas de la que salen los resultados de las encuestas electorales pero pocos las han visto. ¿Qué ocurre en ellas y qué problemas tratan de resolver? Lee Forecasting elections with non-representative polls y lo verás (bien hecho, no a lo Tezanos el Metodólogo).

Según Gelman son: Generalizar de muestra a población (o de pasado a futuro). Generalizar de grupo de control a grupo de tratamiento (relacionado con el asunto de la causalidad). Generalizar a partir de los indicadores observados a los parámetros de interés. Dos de ellos, el primero y el tercero, son del máximo interés para el CIS, pero ¡ea, ea, ea, Tezanos no se entera!

Por si alguien se lo perdió, están aquí. De los seis, mencionaré tres que me están resultando muy útiles en un proyecto actual. De todos ellos, el que más a rajatabla sigo es el primero: ajustar muchos modelos. Pudiera parecer trampa: buscar y rebuscar por si sale algo. Sin embargo, es una técnica que plantearse como una manera de familiarizarse y aprender la estructura de los datos. Los modelos (explicativos, como los que justifican esta entrada) no dejan de ser resúmenes de conjuntos de datos y no es sino ajustando diversos modelos que uno aprende si, por ejemplo, un coeficiente varía por año o provincia.

Hoy, gelmaneo así: bar <- function(n, reps = 1e4){ foo <- function(n){ x <- rnorm(n) tmp <- t.test(x) c(tmp$p.value, abs(mean(x))) } res <- replicate(reps, foo(n)) tmp <- t(res) tmp <- tmp[tmp[,1] < 0.05,] tmp[,2] } res <- lapply(c(3, 10, 20, 50, 100), bar) sapply(res, mean) #[1] 0.8662636 0.6583157 0.4934551 0.3240322 0.2337086 Resumo: Fabrico un montón de errores de tipo I. Recuérdese: error de tipo I implica artículo publicado. Hago variar el número de sujetos (3, 10, etc.

No estoy muy al tanto de la regulación que afecta a la confección de encuestas electorales. Me consta la existencia de algunas normas, como la prohibición de publicarlas durante los últimos días de la campaña. No sé si fiarme de mi memoria a la hora de añadir alguna relativa a cuestiones técnicas, como la de que vayan acompañadas de una ficha metodológica. Pero, y aunque sea alérgico a la regulación en general, me atrevo a apuntar una modificación que podría tener sus méritos.

Andrew Gelman nos invita a no usar más el test de Wilcoxon. El test de Wilcoxon reemplaza las observaciones obtenidas por sus rangos y construye un estadístico basado en estos últimos. Eso implica descartar información pero puede ayudar a ganar robustez en situaciones en que los datos se desvíen de la normalidad. ¿Qué sugiere Gelman? Que si realmente estamos dispuestos a descartar información, en lugar de reemplazar las observaciones originales por sus rangos, usemos z-scores —los cuantiles de la normal estándar correspondientes a los cuantiles muestrales—, y usemos la teoría normal (en su doble acepción).

Gelman

Por si alguien lo toma literalmente

Análisis de la discontinuidad + polinomios de grado alto = ...

"Cocinas electorales" con encuestas muy sesgadas

Los tres retos de la inferencia estadística

Tres de seis consejos para mejorar las regresiones

Gelmaneando

Encuestas electorales: una propuesta

No uses el test de Wilcoxon, nos dice Gelman