Histogramas

Hace un tiempo quise hacer cosas malísimas con datos fiscales de España y Dinamarca. Pero los datos estaban histogramizados: Gracias a Freakonometrics di con binequality. Adaptando su código, escribo library(rvest) library(plyr) dk <- read_html("http://www.skm.dk/english/facts-and-figures/progression-in-the-income-tax-system") tmp <- html_nodes(dk, "table") tmp <- html_table(tmp[[2]]) header <- tmp[1,] tmp <- tmp[-c(1, 2),] colnames(tmp) <- header # elimino declaraciones negativas tmp <- tmp[-1,] # elimino el total tmp <- tmp[-(nrow(tmp)),] colnames(tmp) <- c("rango", "contribuyentes", "X1", "income", "tax1", "tax2", "pct") irpf_dk <- tmp[, c("rango", "contribuyentes", "income", "tax1", "tax2")] irpf_dk$contribuyentes <- as.

Me refiero muy impropiamente con histogramas con medias a algo parecido a que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos. Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido. Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $latex \mu$.

Histogramas

Los datos están histogramizados... ¿quién los deshisotogramizará?

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios