Distribuciones (¿de renta? ¿solo de renta?) a partir de histogramas

2020-9-10 (Última modificación: 2020-9-10)

En el primer número de la novísima revista Spanish Journal of Statistics aparece un artículo con un título tentador: Recovering income distributions from aggregated data via micro-simulations.

Es decir, un artículo que nos puede permitir, por ejemplo, muestrear lo que la AEAT llama rendimientos a partir de lo que publica (aquí):

Uno de los métodos de los que sostienen el ignominioso a mí me funciona está basado en el modelo

lm(log(x) ~ poly(p, 3))

donde x es el extremo superior del tramo y p es la proporción acumulada de sujetos.

Con los datos de la AEAT del 2015, quedaría algo así como:

datos <- structure(
    list(
        hasta = c(1.5, 6, 12, 21, 30, 60, 150, 601, 1000),
        contribuyentes = c(0.305, 58.911, 1202.863, 4181.433, 3022.829,
                        3183.805, 605.617, 74.797, 7.244)),
    class = "data.frame",
    row.names = 4:12)

datos$prop <- cumsum(datos$contribuyentes) / sum(datos$contribuyentes)
tmp <- datos[-nrow(datos),]

modelo <- lm(log(hasta) ~ poly(prop, 3), data = tmp)

muestra <- exp(predict(modelo, data.frame(prop = runif(10000))))
hist(muestra, breaks = 40)

que da algo así como

Comparar los cuantiles de la nueva distribución con los originales es ejercicio que queda propuesto al lector.

Addenda: Véase esta entrada anterior.