Más sobre las R² pequeñas
I.
Si uno hace
n <- 1000
# dos clases del mismo tamaño n
x <- c(rep(0, n), rep(1, n))
# mean(y0) = .45, mean(y1) = .55
y0 <- y1 <- rep(0, n)
y0[1:(.45 * n)] <- 1
y1[1:(.55 * n)] <- 1
# mean(y) = .5
y <- c(y0, y1)
summary(lm(y ~ x))
Sobre las R² pequeñas y sus interpretaciones
Hace unos meses escribí una entrada en defensa (parcial) de una regresión lineal con una R² pequeña. He vuelto a pensar sobre ella y retomo la discusión para esclarecer —sobre todo, para profanos— qué mide la R² y cómo interpretarla según el contexto.
Comienzo por un experimento físico mental. En un laboratorio se realiza un experimento para medir la relación entre dos magnitudes físicas, un efecto $latex y$ y una causa $latex x$. La teoría especifica una relación del tipo $y = a + b x$ y experimentalmente (y en condiciones de laboratorio ideales) se obtienen una serie de datos $latex (x_i, y_i)$. La relación entre ambos es de la consabida forma
Hay mil motivos para criticar una regresión "trucha", pero una R² baja no es uno de ellos
Todo esto arranca con el tuit:
En conjunto, como digo, los países con Estados grandes tienden a ser poco progresivos pic.twitter.com/oeI6hkUZwd
— Juan Ramón Rallo (@juanrallo) February 1, 2021
Esa gráfica, extraída de un documento de la OCDE, creo, fue uno de los argumentos esgrimidos por JR Rallo para defender cierta postura que no viene al caso. Lo relevante para estas páginas es que fue contestado y protestado por muchos —de algunos de los cuales, dada su autoproclamada condición de divulgadores científicos, cabría esperar más— en términos exclusivamente de lo pequeño de la R².