Estadística

Aún más sobre la falacia ecológica

I. Voy a retomar un hilo perdido en mi discusión del otro día sobre la falacia ecológica para abundar en una cuestión que tiende a obviarse a pesar de su gran importancia. En aquella entrada fusilé/usufructé el siguiente gráfico: En él se representan individuos (las elipses de colores) sobre los que hay medidas repetidas (las nubes de puntos que contienen) de cierto fenómeno cuantitativo. Lo relevante del gráfico es que:

Más sobre la falacia ecológica

El de la falacia ecológica es un asunto que ya he tratado en alguna ocasión. Lo retomo porque he encontrado una exposición excelente sobre el concepto de la que esta entrada es prácticamente un plagio. Primero discute la historia del término. Se tiende a atribuir —yo también lo hice aquí— a W. S. Robinson en su artículo Ecological Correlations and the Behavior of Individuals. No obstante, parece que el término propiamente dicho es algo posterior: fue Hanan C.

Algunas notas sobre los CIs

I. Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo del confianza al 95%: Se toma un dado de 20 caras (como los de rol). Si sale un 1, el intervalo de confianza es el conjunto vacío. Si sale cualquier otro valor, el intervalo de confianza es el eje real entero. Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro.

Las ANOVAs tienen interés meramente histórico

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuezo. ¿Cómo? Aplicando lo que se cuenta aquí. Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

modelplotr

R
Si leéis algo y tropezáis con un gráfico como es que lo que lo rodea vale la pena. En este caso, lo que lo rodea es este texto que algún LLM me ha resumido así: El texto analiza la importancia de evaluar el valor comercial de los modelos predictivos y las limitaciones de las métricas de evaluación tradicionales como la curva ROC. Presenta cuatro gráficos de evaluación (ganancias acumuladas, elevación acumulada, respuesta y respuesta acumulada) y tres gráficos financieros (costos e ingresos, ganancias y retorno de la inversión) que pueden ayudar a explicar el valor comercial de un modelo.

Errores en modelos. Zillow. Control de alquileres.

I. Errores en modelos A menudo he usado plot(cars$speed, cars$dist) abline(lm(dist ~ speed, data = cars), col = "red") con el que se crea la requetemanida gráfica útil para ilustrar aspectos relacionados con el ajuste de modelos. Hoy, toca de nuevo. Salvo que uno haga cosas muy extravagantes, los errores de un modelo están tanto por arriba como por debajo de la predicción. De hecho, en una amplia clase de modelos $\sum_i e_i =0$ en entrenamiento y, usualmente, la suma de los errores no debe de quedar muy lejos de cero tampoco en validación (y en el mundo real).

Sobre el muy necesario "Rolling Journal of Sociology"

I. El ordenador —de sobremesa— con el que trabajo habitualmente está más cerca de los diez que de los cinco años. Desde que lo compré ha avanzado la tecnología y soy consciente de que uno nuevo podría facilitarme cierto tipo de tareas. Pero para el 99% de ellas, con lo que tengo, vale. Cambiar me costaría tiempo y dinero. Me da pereza. Realmente, puedo hacer todo lo que necesito con este i5-6400 de 64GB de RAM DDR3-2133.

"Outliers": las dos aproximaciones

Leyendo Taking Outlier Treatment to the Next Level me entretuve en pensar cómo la literatura sobre el tratamiento de los outliers tiende a ignorar y confundir los dos modos —o más bien, circunstancias— de enfrentarse a ellos. Por ejemplo, en ese enlace se discute alrededor de los datos y el modelo representado en, que, como veremos, pertenece a lo que llamo primer modo usando técnicas propias del segundo. Obviamente, el segundo tiene que poder ilustrarse con datos concretos.

Una aplicación inesperada de la detección de "outliers"

Es esta: La foto está construida apilando varias tomadas secuencialmente. Cada píxel que se ve procede de alguna de las originales. En concreto, en la coordenada $ij$ se selecciona uno de los píxeles $ij$ de alguna de las de partida. Para conseguir el efecto deseado, el píxel seleccionado es no otro que el outlier. En este caso concreto, la antimediana, el más alejado de la mediana. La foto original, una discusión detallada del algoritmo, etc.

Sobre lo de Ariely, Gino, etc.

I. Hay tres motivos por los que me interesa esta historia que, creo, serán compartidos por mis lectores: Dice mucho sobre la recocina donde se prepara eso que llaman ciencias sociales. Tiene mucho interés estadístico, es material docente de primera. Y, sobre todo, ¡es tan ameno! II. En 2012, cinco autores —Shu, Mazar, Gino, Ariely y Bazerman— que pertenecían a dos grupos de investigación distintos que trabajaban sobre un mismo asunto, decidieron publicar un artículo conjunto con tres estudios que apuntaban en una misma dirección: Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end.

Inmigración y PISA: ¿en qué quedamos? (si es que merece la pena)

I. Comenzaré por los dos relatos. El primero, está resumido en la siguiente infografía que se puede encontrar en la página 36 del primer volumen de los resultados de PISA de 2022: El hecho destilado que los autores del informe pretenden que uno aprenda leyendo eso —al menos, a la ligera— es que el ser inmigrante —así, en abstracto— no afecta al desempeño académico. El segundo relato está también resumido en otro gráfico,

¿Se encoge el cerebro de los hombres cuando tienen un su primer crío?

Si uno atiende a lo que dicen los medios, diríase que sí. El runrún mediático está motivado por la publicación del estudio First-time fathers show longitudinal gray matter cortical volume reductions: evidence from two international samples al que no tengo acceso ni siquiera oblicuamente (i.e., vía Sci-Hub), pero cuyo resumen traduce ChatGPT así: Las evidencias emergentes señalan la transición a la paternidad como una ventana crítica para la plasticidad neural en adultos.