Regresión

Esta entrada trata sobre las aparentes contradicciones que surgen cuando se comparan las regresiones $y \sim x$ y $x \sim y$. En particular, aqui se muestran y que vienen a decir: El tal Rodgers rinde por encima de lo que se espera para su salario. Para lo que rinde, gana demasiado. Lo cual, a pesar de lo contradictorio, no es un fenómeno extrañísimo. Si uno hace n <- 100 x <- rnorm(n) a <- .

I. Comenzaré por los dos relatos. El primero, está resumido en la siguiente infografía que se puede encontrar en la página 36 del primer volumen de los resultados de PISA de 2022: El hecho destilado que los autores del informe pretenden que uno aprenda leyendo eso —al menos, a la ligera— es que el ser inmigrante —así, en abstracto— no afecta al desempeño académico. El segundo relato está también resumido en otro gráfico,

Todo esto arranca con el tuit: En conjunto, como digo, los países con Estados grandes tienden a ser poco progresivos pic.twitter.com/oeI6hkUZwd — Juan Ramón Rallo (@juanrallo) February 1, 2021 Esa gráfica, extraída de un documento de la OCDE, creo, fue uno de los argumentos esgrimidos por JR Rallo para defender cierta postura que no viene al caso. Lo relevante para estas páginas es que fue contestado y protestado por muchos —de algunos de los cuales, dada su autoproclamada condición de divulgadores científicos, cabría esperar más— en términos exclusivamente de lo pequeño de la R².

Problema de regresión. Queremos $y = f(\mathbf{x})$. Lo más simple que podemos hacer: fiarlo todo a Taylor y escribir $ y = a_0 + \sum_i a_i x_i$. Problema de clasificación. Lo más simple que podemos hacer, de nuevo: linealizar. Pero la expresión lineal tiene rango en $latex (-\infty, \infty)$. Solución, buscar la función $latex f$ más sencilla que se nos pueda ocurrir de $latex (-\infty, \infty)$ en $latex [0, 1]$. Entonces, $latex y = f(a_0 + \sum_i a_i x_i)$.

Hay mucha incertidumbre sobre cómo será el mundo post-coronavirus. Pero una cosa es segura: tendremos gráficas tales como hasta en la sopa. La buena noticia para quienes son ellos y su ideología, es que hay tantos grados de libertad, i.e., la posibilidad de elegir muy cuidadosamente las variables que colocar en el eje x, las fuentes, los años de los datos, etc., los indicadores que colocar en el eje y, los países, provincias, regiones, etc.

¿Recordáis la época en que existía una monocausa omnicacoexplicativa? Era la desigualdad que, a través de inefables mecanismos, generaba todo tipo de calamidades: infelicidad, enfermedad, inestabilidad política, etc. Tal se sostiene en, p.e., The Spirit Level: Why More Equal Societies Almost Always Do Better, un libro donde se argumenta alrededor de gráficas tales como Sin embargo, otro librito, The Spirit Level Delusion, revisitó esas cuestiones poco después y se dio cuenta de que si en lugar de tomar los datos de la fuente A los tomaba de la B; que si en lugar de usar cifras del año tal se usaba las del año cual; si se incluía el país X que aquellos habían considerado y se sacaba el Y, que solo se representaba a sí mismo, uno obtenía cosas tales como

Hay cosas tan obvias que ni se plantea la alternativa. Pero luego va R. Gomila y escribe Logistic or Linear? Estimating Causal Effects of Treatments on Binary Outcomes Using Regression Analysis que se resume en lo siguiente: cuando te interese la explicación y no la predicción, aunque tu y sea binaria, usa regresión lineal y pasa de la logística. Nota: La sección 4.2 de An Introduction to Statistical Learning de se titula precisamente Why Not Linear Regression?

Y me refiero a extraído de aquí y lo que escribí ayer sobre la regresión con discontinuidades.

Muy falto de ideas para el blog tendría que estar para traer a la consideración de sus lectores que ilustra el resultado principal del artículo discutido aquí. Mario, un lector del artículo nos quita la palabra de la boca a todos: No he leido [sic] el paper no soy experto en el tema, pero creo que la figura presentada tiene una validez algo cuestionable. Creo que la regresión de discontinuidad es una herramienta muy poco fiable estadísticamente y que introduce un sesgo en la interpretación de los datos.

Esta entrada es una illustración de otra de no hace mucho, Análisis de la discontinuidad + polinomios de grado alto = … Mirad: Se ha hecho un análisis de la discontinuidad usando parábolas a ambos lados del punto de corte. Y la discontinuidad no es pequeña. Pero me juego un buen cacho de lo que quede de mi reputación a que mucho de ella la explica el puntico de arriba a la izquierda.

Una técnica que, al parecer, es muy del gusto de los economistas es lo del análisis de la discontinuidad. Es como todo lo que tiene que ver con causalImpact pero usando técnicas setenteras (regresiones independientes a ambos lados del punto de corte). Si a eso le sumas que las regresiones pueden ser polinómicas con polinomios de alto grado… pasan dos cosas: Tienes una probabilidad alta de obtener un resultado significativo, i.

Contexto: modelos de regresión con de varias a muchas variables. Muy particularmente cuando interesa la predicción. Pseudoproblema: ¿quitamos las variables no significativas? Los manualitos (muy queridos de enseñantes, porque les dan reglas sencillitas; muy queridos también de los aprendientes, por el mismo motivo) rezan que sí. Se quitan y a otra cosa. La regla adulta es: Si el coeficiente es grande y tiene el signo correcto, ¡enhorabuena! Si el coeficiente es pequeño, la variable no hace ni bien ni mal.

Por si alguien se lo perdió, están aquí. De los seis, mencionaré tres que me están resultando muy útiles en un proyecto actual. De todos ellos, el que más a rajatabla sigo es el primero: ajustar muchos modelos. Pudiera parecer trampa: buscar y rebuscar por si sale algo. Sin embargo, es una técnica que plantearse como una manera de familiarizarse y aprender la estructura de los datos. Los modelos (explicativos, como los que justifican esta entrada) no dejan de ser resúmenes de conjuntos de datos y no es sino ajustando diversos modelos que uno aprende si, por ejemplo, un coeficiente varía por año o provincia.

Regresión

¿Cómo se interpretan los resultados de estas regresiones

Inmigración y PISA: ¿en qué quedamos? (si es que merece la pena)

Hay mil motivos para criticar una regresión "trucha", pero una R² baja no es uno de ellos

La regresión logística como el modelo más simple posible (que...)

Cosas que ocurrirán sin lugar a dudas tras el coronavirus

10k regresiones truchas para que cada cual elija la que más le cuadre

¿Lineal o logística?

¡Son todos igualitos!

Regresiones con discontinuidad y grados de libertad

¿Y si quitamos el puntico de arriba a la izquierda?

Análisis de la discontinuidad + polinomios de grado alto = ...

¿Quitar variables no significativas?

Tres de seis consejos para mejorar las regresiones