Distribuciones (¿de renta? ¿solo de renta?) a partir de histogramas

En el primer número de la novísima revista Spanish Journal of Statistics aparece un artículo con un título tentador: Recovering income distributions from aggregated data via micro-simulations.

Es decir, un artículo que nos puede permitir, por ejemplo, muestrear lo que la AEAT llama rendimientos a partir de lo que publica (aquí):

Uno de los métodos de los que sostienen el ignominioso a mí me funciona está basado en el modelo

lm(log(x) ~ poly(p, 3))

donde x es el extremo superior del tramo y p es la proporción acumulada de sujetos.

Con los datos de la AEAT del 2015, quedaría algo así como:

datos <- structure(
    list(
        hasta = c(1.5, 6, 12, 21, 30, 60, 150, 601, 1000),
        contribuyentes = c(0.305, 58.911, 1202.863, 4181.433, 3022.829,
                      3183.805, 605.617, 74.797, 7.244)),
    class = "data.frame",
    row.names = 4:12)

datos$prop <- cumsum(datos$contribuyentes) / sum(datos$contribuyentes)
tmp <- datos[-nrow(datos),]

modelo <- lm(log(hasta) ~ poly(prop, 3), data = tmp)


muestra <- exp(predict(modelo, data.frame(prop = runif(10000))))
hist(muestra, breaks = 40)

que da algo así como

Comparar los cuantiles de la nueva distribución con los originales es ejercicio que queda propuesto al lector.

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.