R Cuadrado

Más sobre las R² pequeñas

I.

Si uno hace

n <- 1000

# dos clases del mismo tamaño n
x <- c(rep(0, n), rep(1, n))

# mean(y0) = .45, mean(y1) = .55
y0 <- y1 <- rep(0, n)
y0[1:(.45 * n)] <- 1
y1[1:(.55 * n)] <- 1

# mean(y) = .5
y <- c(y0, y1)

summary(lm(y ~ x))

Sobre las R² pequeñas y sus interpretaciones

Hace unos meses escribí una entrada en defensa (parcial) de una regresión lineal con una R² pequeña. He vuelto a pensar sobre ella y retomo la discusión para esclarecer —sobre todo, para profanos— qué mide la R² y cómo interpretarla según el contexto.

Comienzo por un experimento físico mental. En un laboratorio se realiza un experimento para medir la relación entre dos magnitudes físicas, un efecto $latex y$ y una causa $latex x$. La teoría especifica una relación del tipo $y = a + b x$ y experimentalmente (y en condiciones de laboratorio ideales) se obtienen una serie de datos $latex (x_i, y_i)$. La relación entre ambos es de la consabida forma

Hay mil motivos para criticar una regresión "trucha", pero una R² baja no es uno de ellos

Todo esto arranca con el tuit:

Esa gráfica, extraída de un documento de la OCDE, creo, fue uno de los argumentos esgrimidos por JR Rallo para defender cierta postura que no viene al caso. Lo relevante para estas páginas es que fue contestado y protestado por muchos —de algunos de los cuales, dada su autoproclamada condición de divulgadores científicos, cabría esperar más— en términos exclusivamente de lo pequeño de la R².