Student

Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Igual porque nos han educado mostrándonos imágenes no muy distintas de Lo cual tiene cierto sentido cuando A y B tienen poblaciones homogéneas.

El habitual problema de la diferencia de medias suele formularse de la siguiente manera: hay observaciones $latex y_{1i}$ e $latex y_{2i}$ donde $$ y_{ji} \sim N(\mu_j, \sigma)$$ e interesa saber si $latex \mu_1 = \mu_2$. Obviamente, se desconoce $latex \sigma$. De cómo resolvió Gosset el problema están los libros de estadística llenos. En R, set.seed(1234) N1 <- 50 N2 <- 50 mu1 <- 1 mu2 <- -0.5 sig1 <- 1 sig2 <- 1 y1 <- rnorm(N1, mu1, sig1) y2 <- rnorm(N2, mu2, sig2) t.

Me gustaría no tener que hacer más t-tests en la vida, pero no va a ser el caso. El problema al que me refiero le surgió a alguien en una galaxia lejana y, de alguna manera, me salpicó y me involucró. Es, simplificándolo mucho, el siguiente. Tiene una muestra $latex X = x_1, \dots, x_n$ y quiere ver si la media es o no cero. ¿Solución de libro? El t-test. Pero le salen cosas raras e inesperadas.

El ejercicio que planteé hace unos días está extraido (casi literalmente) de aquí. Veamos cómo razona su autor en cada caso: Caso 1: Existe una diferencia estadísticamente significativa entre los tratamientos. Pero carece de importancia práctica porque es improbable que supere los 3 mg/dl. Caso 2: La diferencia es estadísticamente significativa y tiene importancia práctica a pesar de que el intervalo de confianza tiene una anchura de 20 mg/dl. Y es que un intervalo de confianza ancho no es necesariamente algo negativo: en este caso, por ejemplo, todos los puntos del rango tienen una misma interpretación.

He estado buscando estos días material relacionado con algo que se ha dado en llamar estadística moderna, que enfatiza el cálculo (asistido por ordenador) y la simulación a la hora de afrontar problemas estadísticos. La estadística clásica, por el contrario, tiende a hacer uso de hipótesis acerca de la distribución de los datos y a utilizar mecanismos más analíticos. La estadística moderna es moderna porque los ordenadores que la hicieron posible llegaron antes que la teoría subyacente a la teoría clásica.

Student

Lo que las diferencias de medias evocan

Diferencia de medias a la bayesiana con salsa de stan

A vueltas con el t-test

Test de Student e importancia práctica: una solución (para su discusión)

Gosset, el remuestreador de la infinita paciencia