Artículos

En muchos sitios se habla sobre cómo A causa B —o tiene un efecto de cierto tamaño sobre B—. Mucho menos se suele hablar de la forma de ese efecto. El siguiente gráfico (extraído de aquí) muestra ocho de las infinitas formas en que una variable puede tener un efecto sobre otra: En todas ellas, el efecto global tiene el mismo valor medio. Los corolarios los dejo para cada cual.

Tienen que alinearse unas cuantas circunstancias poco probables para que lea sociología. Dos de las más relevantes para que metiese la nariz en Seeing Like a Market son que: conocía a uno de los autores por tener un librito decente sobre visualización de datos con R y que Seeing Like a State es uno de los pocos PDFs que han pasado por mi disco duro y han sobrevivido a rm. Tienen que darse, además, circunstancias adicionales para que acabe comentándolo aquí.

Tenía pendiente contar algo sobre el (oscuro) artículo A Brief History of Generative Models for Power Law and Lognormal Distributions. Tiene una cosa buena y una mala. La buena —y más interesante— es que ilustra cómo pensar sobre la conveniencia de usar una distribución determinada a la hora de modelar un fenómeno concreto. Uno de los procedimientos más fértiles consiste en indagar sobre el proceso generativo que conduce a la distribución en cuestión.

Creo que todo el mundo sabe a qué me refiero con lo del affaire Volkswagen: en 2015 se supo que algunos modelos de ese fabricante contaban con dispositivos que cambiaban el régimen del motor precisamente cuando se realizaban pruebas y medidas de emisiones —la ITV, para entendernos— y las restablecían a sus valores originales al terminarse estas. Se trata de dispositivo ingenioso. En el fondo, es un sistema que es capaz de distinguir el régimen de funcionamiento normal del vehículo en la calle y el anormal que se produce cuando, parece ser, circula sobre los rodillos con los que se realizan las pruebas en los talleres habilitados.

La extrapolación problemática. Que es la manera erudita de decir que ni de coña. La extrapolación —lineal, en este caso— tiene dos problemas: No sabemos si el fenómeno va a seguir comportándose de manera lineal fuera del rango de las observaciones. Aunque lo sea, el error cometido al ajustar una recta usando solo datos de un extremo es muy grande. Lo ideal, de hecho, es tener datos en ambos extremos del intervalo de interés.

Todos sabemos qué es el crecimiento lineal y el exponencial. Todos sabemos que las funciones lineales y exponenciales tienen un aspecto muy distinto. Sería ocioso —¿insultante incluso?— sustentar gráficamente esas afirmaciones. Por eso me llamó grandemente la atención el reciente artículo de Thomas Philippon, Additive Growth, que comienza, con mi traducción, así: De acuerdo con el libro de texto de Solow de 1956, los modelos de crecimiento económico dan por hecho que la PTF [productividad total de los factores] crece exponencialmente: $dA_t = gA_tdt$, donde $A$ es la PTF y $g$ es o bien constante o prácticamente constante.

Por motivos que no vienen al caso, me ha tocado ponderar el artículo The use of controls in interrupted time series studies of public health interventions. Lo comento hoy porque hace referencia a temas que me ha gustado tratar en el pasado. El artículo, prima facie, es un poco viejuno. De hecho, casi todo lo que se escribe sobre metodología en el mundo de las aplicaciones (y el que cito tiene que ver con salud pública) tiene tufillo de naftalina.

X escribe en 2020: In particular, panel A presents the results when the municipalities are divided according to the real average Internet speed (Mbps). As is evident, the effect of extreme-right mayors on hate crimes is concentrated in municipalities where Internet speed is high, especially when the intensive margin is considered […] Y escribe también en 2020: Results show that Internet availability between 2008 and 2012 is associated with a better knowledge of (national) immigration dynamics and that it leads to an overall improvement in attitudes towards immigrants.

En esta entrada abundo en una que escribí hace ocho años: Conceptos estadísticos que desaprender: la suficiencia. Lo hago porque casualmente he tropezado con su origen y justificación primera, el afamado artículo On the Mathematical Foundations of Theoretical Statistics del nunca suficientemente encarecido R.A. Fisher. Criticaba en su día lo inútil del concepto. Al menos, en la práctica moderna de la estadística: para ninguno de los conjuntos de datos para los que trabajo existe un estadístico suficiente que no sea la totalidad de los datos.

He publicado esto en Youtube: Igual no lo debería haber hecho. Trata del manido tema “alguien ha publicado un artículo científico con serios errores metodológicos”. Que es una versión del más popular (No hace falta que indique la fuente, ¿verdad? Sabéis que sé que sabéis de dónde lo he sacado, ¿no?) Lo he hecho únicamente por lo popular que me da la impresión que se ha hecho en las redes sociales, por las lecciones que se pueden extraer para no cometer los mismos errores por ahí y, finalmente, por la contumacia de gente que debería saber más y mejor.

El argumento del artículo Paraísos Fiscales, Wealth Taxation, and Mobility pivota esencialmente sobre el gráfico que resultará familiar a muchos lectores de este blog (y, si no, mirad esto). Se trata de un estudio causal de libro en el que se pretende medir el efecto de una política ocurrida en 2010 sobre la línea roja y la línea azul. La política en cuestión es la reintroducción del impuesto del patrimonio en España en 2010 y las líneas azul y rojas… no está claro.

I. Estos días y por razones que no vienen a cuento, he estado leyendo Fashionable Nonsense. Es un libro que puede describirse como la versión del director del conocido como escándalo Sokal. Para los no advertidos y según la Wikipedia: En 1996, Sokal, profesor de física en la Universidad de Nueva York, envió un artículo pseudocientífico para que se publicase en la revista postmoderna de estudios culturales Social Text. Pretendía comprobar que una revista de humanidades «publicará un artículo plagado de sinsentidos, siempre y cuando: a) Suene bien; y b) Apoye los prejuicios ideológicos de los editores (contra las ciencias empíricas)».

El artículo The Hardware Lottery es, hasta cierto punto, informativo. En el fondo, no dice nada que no supiésemos ya: que ciertas ideas, algoritmos, procedimientos, métodos, en diversas disciplinas (¡no en matemáticas!) triunfan esencialmente porque les toca la lotería del hardware. No es que sean las mejores desde una perspectiva actual —podría usar aquí los términos etic y emic a lo ovetense— sino que fueron afortunados y bendecidos por el hecho de estar a la (típicamente, medianeja) altura de los tiempos medidos en términos del desarrollo del hardware.

Artículos

¿De qué "forma" es que A causa B?

Acerca de "Ver como un mercado"

¿Qué distribución usar? ¡Examina el proceso generativo!

El impacto de la contaminación de los diésel: dos perspectivas sobre el "Volkswagen affaire"

Extrapolar es difícil (¿imposible?); hoy, con "sigmoides"

Si no podemos dilucidar si algo crece lineal o exponencialmente, ¿qué podemos saber?

Garantías de robustez en inferencia causal

La miseria de la inferencia causal vivida

Más sobre aquel concepto estadístico que aconsejé desaprender: la suficiencia

Nuevo vídeo en YouTube: un artículo y tres problemas metodológicos

Causalidad y paraísos fiscales

Sobre el "programa fuerte" de la sociología de la ciencia: una visión desde la "ciencia de datos"

La lotería del hardware y la cámara de resonancia académica