El extraño caso de la media empírica menguante

La distribución lognormal es la exponencial de una distribución normal. Su media, Wikipedia dixit, es \exp(\mu + \sigma^2 /2).

Dada una muestra de la distribución lognormal (y supuesto, por simplificar, \mu=0), podemos calcular

  • su media y
  • una estimación de su \sigma y calcular \exp(\sigma^2 /2)

y uno pensaría que los valores deberían ser similares. Mas pero sin embargo,

library(ggplot2)
 
set.seed(123)
 
sigmas <- seq(1, 10, by = 0.1)
 
res <- sapply(sigmas, function(sigma){
  a <- exp(rnorm(1e6, 0, sigma))
  mean(a) / exp(var(log(a))/2)
})
 
tmp <- data.frame(sigmas = sigmas, medias = res)
 
ggplot(tmp, aes(x = sigmas, y = medias)) + 
  geom_point() + geom_smooth()

produce

expected_vs_empirical

El gráfico anterior, para quien tenga pereza de desentrañar el código, muestra la razón entre la media empírica y la teórica para una serie de extracciones de un millón de muestras de una distribución lognormal con parámetro \mu = 0 y con \sigma variando entre 0 y 10. Dicha razón, como cabría esperar, se mantiene cerca de uno para valores bajos de \sigma, pero se derrumba para valores más altos.

El asunto es relevante porque el comportamiento proyectado a futuro de muchas series de importancia económica (p.e., cotizaciones bursátiles, aunque sospecho que también otras como el PIB y similares) encuentran en la distribución lognormal una aproximación. No son estrictamente lognormales, pero es frecuente encontrar quien da dicha aproximación, tal vez con algún caveat, por buena. Además, sospecho que aquellos aspectos cualitativos que uno podría esgrimir para descalificar el recurso a la lognormal tenderían a acentuar la desviación que motiva esta entrada. Lo cual significaría que en situaciones de alta volatilidad, la rentabilidad del común de los mortales quedaría muy por debajo de la media y algún afortunado se lo llevaría crudo.

Y como este último párrafo, el de la conclusión, debería tener contenido político, lo omito.

5 comentarios sobre “El extraño caso de la media empírica menguante

  1. Olivier 1 junio, 2016 11:55

    Si, la media empirica tarda mucho en converger.
    De todas maneras, no es una buena medida de posición en este contexto.
    La mediana sería una medida de posición más apropiada.
    De hecho, su valor teorico nos indica que no depende de sigma: E(mediana)= exp(mu).

    En cambio aqui, la media es muy sensible a los valores extremos: E(media) ~ exp(sigma^2/2).
    Hace falta tamaños muestrales muy grandes para alcanzar los valores en la cola y revelar esta sensibilidad en toda su plenitud!

  2. Carlos J. Gil Bellosta 1 junio, 2016 21:30

    Sí, la “regla”, si alguna, es usar la mediana para este tipo de distribuciones con cola larga a la derecha. Pero ahora me asalta la duda: cuando se calculan, p.e., los salarios medios mediante un muestreo, ¿estaremos subestimándolos como este ejemplo?

  3. Olivier 2 junio, 2016 10:44

    Si los salarios en tu población siguen una log-normal con un sigma “grande” (e.j, sigma>3), entonces claramente hay mucha desigualdad y la medida “salario medio” es muy poco útil. Mejor utilizar quantiles; tipo: el 25% de los más pobre ganan menos de 800 euros/mes, el 5% de los más ricos ganan más que todos los demás, ….. Hay mucha literatura sobre las medidas adecuadas para medir desigualdades salariales….

  4. Carlos J. Gil Bellosta 2 junio, 2016 23:42

    Sí, sí, estoy de acuerdo contigo con lo de las medias y los cuantiles en esas circunstancias. Es uno de los temas recurrentes en estas páginas que la media es poco informativa. Lo que me hizo pensar escribir esta entrada es que, además, la media empírica podría estar lejos de la media real. Una cosa es que la media sea la media pero inútil y otra que la media (empírica basada en una muestra) ni siquiera sea (o esté razonablemente cerca de) la media.

  5. Olivier 3 junio, 2016 21:15

    No discuto la pertinencia de la entrada.
    Me parece muy saludable recordar que el asintotico no siempre está a mano.
    El martillo no es una buena herramienta debajo del agua.
    Algo así le pasa a la media con estas distribuciones de colas pesadas.

Los comentarios están desabilitados.