A vueltas con el t-test

Me gustaría no tener que hacer más t-tests en la vida, pero no va a ser el caso.

El problema al que me refiero le surgió a alguien en una galaxia lejana y, de alguna manera, me salpicó y me involucró. Es, simplificándolo mucho, el siguiente.

Tiene una muestra X = x_1, \dots, x_n y quiere ver si la media es o no cero. ¿Solución de libro? El t-test. Pero le salen cosas raras e inesperadas. De ahí lo del salpicón.

La cosa es que la distribución de los x_1, \dots, x_n no es para nada normal. Tiene todas las características que afean una distribución: larga cola, muchos valores igual a cero, etc.

Yo soy de la opinión de que el t-test no es aplicable. Aparte de por los consabidos motivos (falta de normalidad, etc.) por otros que me alejarían del asunto. Me gustaría, por ejemplo, indagar sobre el modelo que genera esos datos y ver cómo podría parametrizarlo. Pero esa discusión, reitero, es para otro día.

Pero alguien va y dice lo siguiente: fíjese Vd. que lo que hay en el numerador del estadístico del t-test, que viene a ser

\sqrt{n} \frac{\mu_X}{\sigma_X}

es una media y, por tanto, aplicando el teorema central del límite (¿aplica?), lo que ve es una normal.

¡Puf! Vale, concedo que \sqrt{n} \mu_X podría seguir una normal. Pero, ¿tiene el denominador una distribución que pueda parecerse a una chi-cuadrado con n-1 grados de libertad? Ni jarto de vino. El que quiera convencerse de ello, que ejecute

foo <- function(n, m){
  res <- c(rep(0,n), abs(rcauchy(m)))
  var(res)
}
 
res <- replicate(10000, foo(1000, 10))
qqplot(res, rchisq(10000, 1010))
abline(a=0, b=1)

En fin, he visto argumentos variados en pro de la prueba de Student. Pero el de que la normalidad es irrelevante (al menos, cuando n es bastante grande) porque el teorema central del límite aplica… me tiene descolocado.

2 comentarios sobre “A vueltas con el t-test

  1. Daniel 11 junio, 2014 16:21

    Una cosa es que X siga una normal y otra es que la media muestral siga una normal. La media muestral para un n grande sigue aproximadamente una normal, independientemente de la distribución de origen.

    «Tiene una muestra X = x_1, \dots, x_n y quiere ver si la media es o no cero.» es en cierto modo ambiguo.

    Para contrastar que la media de la distribución de X es 0, no nos vale el T-test si no hay aproximadamente normalidad.

    Para contrastar que la media de la distribución de las medias muestrales (para n grande) es 0, sí nos vale el T-test.

  2. Rubén F. Casal 30 junio, 2014 9:46

    Un par de comentarios:
    – La distribución asintótica se obtiene en el límite y en (muchas) ocasiones el límite está muy lejos…
    – Para que «funcione» el teorema central del límite se deben dar ciertas condiciones. Por ejemplo, va a «fallar» en el caso de la media muestral de una distribución de Cauchy (está distribución no tiene varianza, ni siquiera media).

    La alternativa que yo intentaría sería emplear bootstrap para aproximar la distribución del estadístico del contraste.

    Por lo demás el comentario de Daniel se me escapa…

Los comentarios están desabilitados.