Estadística

Algunas notas sobre los CIs

I. Supongamos que $\theta$ es un parámetro real. John D. Cook le construye el siguiente intervalo del confianza al 95%: Se toma un dado de 20 caras (como los de rol). Si sale un 1, el intervalo de confianza es el conjunto vacío. Si sale cualquier otro valor, el intervalo de confianza es el eje real entero. Es tan perfectamente válido (desde el punto de vista frecuentista) como cualquier otro.

Las ANOVAs tienen interés meramente histórico

Todo eso que se conoce como ANOVA tiene, a lo más, interés histórico. Se puede hacer más y mejor con igual o menor esfuezo. ¿Cómo? Aplicando lo que se cuenta aquí. Nota: Interés histórico no significa no interés: muchas veces existe un solapamiento importante entre el orden histórico de los conceptos y el orden en que es más natural aprenderlos (o enseñarlos).

modelplotr

R
Si leéis algo y tropezáis con un gráfico como es que lo que lo rodea vale la pena. En este caso, lo que lo rodea es este texto que algún LLM me ha resumido así: El texto analiza la importancia de evaluar el valor comercial de los modelos predictivos y las limitaciones de las métricas de evaluación tradicionales como la curva ROC. Presenta cuatro gráficos de evaluación (ganancias acumuladas, elevación acumulada, respuesta y respuesta acumulada) y tres gráficos financieros (costos e ingresos, ganancias y retorno de la inversión) que pueden ayudar a explicar el valor comercial de un modelo.

Errores en modelos. Zillow. Control de alquileres.

I. Errores en modelos A menudo he usado plot(cars$speed, cars$dist) abline(lm(dist ~ speed, data = cars), col = "red") con el que se crea la requetemanida gráfica útil para ilustrar aspectos relacionados con el ajuste de modelos. Hoy, toca de nuevo. Salvo que uno haga cosas muy extravagantes, los errores de un modelo están tanto por arriba como por debajo de la predicción. De hecho, en una amplia clase de modelos $\sum_i e_i =0$ en entrenamiento y, usualmente, la suma de los errores no debe de quedar muy lejos de cero tampoco en validación (y en el mundo real).

Sobre el muy necesario "Rolling Journal of Sociology"

I. El ordenador —de sobremesa— con el que trabajo habitualmente está más cerca de los diez que de los cinco años. Desde que lo compré ha avanzado la tecnología y soy consciente de que uno nuevo podría facilitarme cierto tipo de tareas. Pero para el 99% de ellas, con lo que tengo, vale. Cambiar me costaría tiempo y dinero. Me da pereza. Realmente, puedo hacer todo lo que necesito con este i5-6400 de 64GB de RAM DDR3-2133.

"Outliers": las dos aproximaciones

Leyendo Taking Outlier Treatment to the Next Level me entretuve en pensar cómo la literatura sobre el tratamiento de los outliers tiende a ignorar y confundir los dos modos —o más bien, circunstancias— de enfrentarse a ellos. Por ejemplo, en ese enlace se discute alrededor de los datos y el modelo representado en, que, como veremos, pertenece a lo que llamo primer modo usando técnicas propias del segundo. Obviamente, el segundo tiene que poder ilustrarse con datos concretos.

Una aplicación inesperada de la detección de "outliers"

Es esta: La foto está construida apilando varias tomadas secuencialmente. Cada píxel que se ve procede de alguna de las originales. En concreto, en la coordenada $ij$ se selecciona uno de los píxeles $ij$ de alguna de las de partida. Para conseguir el efecto deseado, el píxel seleccionado es no otro que el outlier. En este caso concreto, la antimediana, el más alejado de la mediana. La foto original, una discusión detallada del algoritmo, etc.

Sobre lo de Ariely, Gino, etc.

I. Hay tres motivos por los que me interesa esta historia que, creo, serán compartidos por mis lectores: Dice mucho sobre la recocina donde se prepara eso que llaman ciencias sociales. Tiene mucho interés estadístico, es material docente de primera. Y, sobre todo, ¡es tan ameno! II. En 2012, cinco autores —Shu, Mazar, Gino, Ariely y Bazerman— que pertenecían a dos grupos de investigación distintos que trabajaban sobre un mismo asunto, decidieron publicar un artículo conjunto con tres estudios que apuntaban en una misma dirección: Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end.

Inmigración y PISA: ¿en qué quedamos? (si es que merece la pena)

I. Comenzaré por los dos relatos. El primero, está resumido en la siguiente infografía que se puede encontrar en la página 36 del primer volumen de los resultados de PISA de 2022: El hecho destilado que los autores del informe pretenden que uno aprenda leyendo eso —al menos, a la ligera— es que el ser inmigrante —así, en abstracto— no afecta al desempeño académico. El segundo relato está también resumido en otro gráfico,

¿Se encoge el cerebro de los hombres cuando tienen un su primer crío?

Si uno atiende a lo que dicen los medios, diríase que sí. El runrún mediático está motivado por la publicación del estudio First-time fathers show longitudinal gray matter cortical volume reductions: evidence from two international samples al que no tengo acceso ni siquiera oblicuamente (i.e., vía Sci-Hub), pero cuyo resumen traduce ChatGPT así: Las evidencias emergentes señalan la transición a la paternidad como una ventana crítica para la plasticidad neural en adultos.

¿Cuántas iteraciones necesita mi MCMC?

Es el tema de este reciente artículo de Gelman. Cabe esperar que algunos se sientan decepcionados porque no tenga solo una página en la que se lea algo así como: usa cuatro cadenas de 4000 iteraciones, 1000 de ellas de warmup. Lo siento: son 26 páginas y sin recetas copy-paste. Tampoco puedo añadir nada de sustancia a lo que ahí se cuenta. Me voy a limitar a subrayar una idea e ilustrarla con un caso con el que me enfrenté hace unos años.

Dibujar y modelar: ¿en qué se parecen?

Los economistas de hogaño tienden a coincidir en no encontrar sustancia detrás de la llamada curva de Laffer. No les quito la razón: ellos saben mejor que yo qué pasa en las casas de los demás. Pero en la mía, Laffer manda. En los últimos meses del año levanto el pie del acelerador y trabajo mucho, mucho menos. El motivo es fundamentalmente fiscal: mi tarifa bruta por hora es la misma pero el IRPF marginal —en eso consiste la progresividad fiscal— va aumentando mes a mes.