T-Test

En Improving Research Through Safer Learning from Data, Frank Harrell, junto con otros consejos muy provechosos para aquellos investigadores que tengan un compromiso más serio con la rectitud metodológica que con el desarrollo de su carrera profesional, menciona a modo de ejemplo una solución propuesta por Box y Tiao (en el tercer capítulo de esto) al problema del t-test en el caso de que no rija la hipótesis de normalidad. Más propiamente, en casos en los que se sospecha que la desviación con respecto a la normalidad lo es en términos de la curtosis (y no la asimetría).

En mi entrada anterior mencioné cómo la suma de cuadrados de normales, aun cuando tengan varianzas desiguales, sigue siendo aproximadamente $latex \chi^2$. Es el resultado que subyace, por ejemplo, a la aproximación de Welch que usa R por defecto en t.test. Puede verse una discusión teórica sobre el asunto así como enlaces a la literatura relevante aquí. Esta entrada es un complemento a la anterior que tiene lo que a la otra le faltan: gráficos.

Acabo de ver y: Me parece increíble que se pueda ir a una conferencia seria a describir el t-test. ¿Así está el cotarro? En tanto que anacrónica (critica hoy una tecnología de 1908), tanto la critica y como su tono me parecen injustos. En tanto que no (¡aún se enseña casi tal cual!), entiendo muchas cosas.

Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Igual porque nos han educado mostrándonos imágenes no muy distintas de Lo cual tiene cierto sentido cuando A y B tienen poblaciones homogéneas.

El habitual problema de la diferencia de medias suele formularse de la siguiente manera: hay observaciones $latex y_{1i}$ e $latex y_{2i}$ donde $$ y_{ji} \sim N(\mu_j, \sigma)$$ e interesa saber si $latex \mu_1 = \mu_2$. Obviamente, se desconoce $latex \sigma$. De cómo resolvió Gosset el problema están los libros de estadística llenos. En R, set.seed(1234) N1 <- 50 N2 <- 50 mu1 <- 1 mu2 <- -0.5 sig1 <- 1 sig2 <- 1 y1 <- rnorm(N1, mu1, sig1) y2 <- rnorm(N2, mu2, sig2) t.

Si un día faltan 21.63 euros en caja se cuenta y se recuenta. Se revisan los tiques, se comprueban los pagos con tarjeta, se vuelven a sumar los pagos a proveedores, etc. Hasta que, con suerte, alguien encuentra algo y la diferencia se reduce a, digamos, 3.92 euros. Pero cuando la diferencia es de 2.15… se da por buena sin más. Cuando el t-test da un p-valor de .058, se revisan los números, se reestudia la carga y manipulación de datos, se replantea si el caso 194 es o no un outlier, etc.

Me gustaría no tener que hacer más t-tests en la vida, pero no va a ser el caso. El problema al que me refiero le surgió a alguien en una galaxia lejana y, de alguna manera, me salpicó y me involucró. Es, simplificándolo mucho, el siguiente. Tiene una muestra $latex X = x_1, \dots, x_n$ y quiere ver si la media es o no cero. ¿Solución de libro? El t-test. Pero le salen cosas raras e inesperadas.

El ejercicio que planteé hace unos días está extraido (casi literalmente) de aquí. Veamos cómo razona su autor en cada caso: Caso 1: Existe una diferencia estadísticamente significativa entre los tratamientos. Pero carece de importancia práctica porque es improbable que supere los 3 mg/dl. Caso 2: La diferencia es estadísticamente significativa y tiene importancia práctica a pesar de que el intervalo de confianza tiene una anchura de 20 mg/dl. Y es que un intervalo de confianza ancho no es necesariamente algo negativo: en este caso, por ejemplo, todos los puntos del rango tienen una misma interpretación.

Imagina que trabajas en lo que Ionnidis, en su artículo Why Most Published Research Findings Are False, llama un null field; es decir, un área de investigación (tipo homeopatía o percepción extrasensorial) en la que no hay resultados ciertos, en la que las relaciones causa-efecto no pasan de ser presuntas. O tienes un conjunto de datos en un campo no nulo pero que, por algún motivo, no recoge las variables necesarias para explicar un cierto fenómeno.

T-Test

Más sobre extensiones (bayesianas, pero no necesariamente) del t-test

Sobre sumas de cuadrados de normales con varianzas desiguales

Estadística "sin el dolor agónico"

Lo que las diferencias de medias evocan

Diferencia de medias a la bayesiana con salsa de stan

¿Si un día faltan 21.63 euros en caja?

A vueltas con el t-test

Test de Student e importancia práctica: una solución (para su discusión)

p-valores bajo la hipótesis nula tras múltiples comparaciones