¿Son sostenibles las pensiones en el largo plazo?

Me voy a meter en terrenos pantanosos. El tema que traigo hoy a mis páginas es, sin duda, espinoso. Pero quiero dejar en negro sobre blanco una serie de ideas básicas que se han convertido en el punto de partida de cuanto puedo opinar sobre este tema, la esencia pura del mismo (tal y como yo lo entiendo) antes de que abogados, políticos, financieros, etc., lo compliquen.

Casi todo lo que se lee sobre el asunto está enmarañado de hojarasca de índole legal y, a menudo, ideológica. Me da la sensación de que el punto de partida del razonamiento de la mayoría sobre el asunto viene determinado por su respuesta personal a las dos siguientes preguntas:

El primer análisis clínico, ¿en la Biblia?

Ben Goldacre es un médico inglés algo friqui. No se conforma con lo que le cuentan los vademécum al uso. Y mucho menos, los visitadores médicos, es decir, los representantes comerciales de las compañías farmacéuticas. Le gusta navegar por la literatura científica y ver qué se ha publicado sobre los diversos tratamientos. E incluso, lo que no ha llegado a publicarse (ya sabéis, el sesgo de publicación).

Publicó en 2008 un libro muy recomendable, Bad Science (traducido al español), gracias al cual he venido a enterarme de cuál pudiera haber sido el primer análisis clínico de la historia:

¿Por qué 0.05?

¿Por qué usamos p=0.05 como umbral de significancia? ¿Cuáles son los motivos históricos detrás de dicha decisión? ¿Tiene ventajas? ¿Inconvenientes?

Quien quiera conocer en qué contexto dijo R.A. Fischer que

[…] for in fact no scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses; he rather gives his mind to each particular case in the light of his evidence and his ideas. Further, the calculation is based solely on a hypothesis, which, in the light of the evidence, is often not believed to be true at all, so that the actual probability of erroneous decision, supposing such a phrase to have any meaning, may be much less than the frequency specifying the level of significance.

Algunos resultados de la Encuesta Trimestral de Coste Laboral

Voy a hacerlo. Aunque siento cierta repugnancia. Y es que promediar salarios de carretilleros y directores generales es algo que trato de evitar. Ni aun con el beneplácito del INE. No obstante, creo que el resultado final merece aún la pena y que de él se pueden extraer conclusiones no del todo irrelevantes.

Lo que voy a hacer es mostrar un par de gráficos construidos sobre los datos (agregados: da la impresión de que el INE no proporciona los microdatos) de la última Encuesta Trimestral de Coste Laboral correspondiente al tercer trimestre de 2012. De entre todas las opciones, me he decantado por indagar sobre el coste laboral por hora efectiva y por divisiones de la CNAE-09. Lo resumo en el siguiente gráfico:

Arte con R: tres enlaces

Traigo hoy a mi bitácora tres enlaces sobre la creación de artefactos gráficos con R.

En el primero (¡en japonés!) puede uno aprender a construir cosas como

El segundo reproduce con R la siguiente obra de Bridget Riley:

Y el tercero es una elaboración sobre el anterior que permite generar gráficos tales como

Una aplicación SEO con R

R

Leyendo Bad Data vine a saber que Google deja en los logs de Apache información muy relevante sobre la optimización del sitio. En efecto, cuando alguien encuentra tu página en Google, Apache deja (casi siempre) en los logs una línea similar a

188.77.154.135 - - [30/Dec/2012:09:35:28 +0000] "GET /blog/page/33/?p=... HTTP/1.1" 200 15348 "http://www.google.es/url?sa=t&rct=j&q=breiman%20dos%20culturas%20estadistica&source=web&cd=21&cad=rja&ved=0CDIQFjAAOBQ&url=http%3A%2F%2Fwww.datanalytics.com%2Fblog%2Fpage%2F33%2F%3Fp%3D...&ei=1QrgULj7E6qk0QXRwYHgCQ&usg=AFQjCNHpdZUVD15sC7CdOvUOppdcXAjweQ&sig2=hKh3vCnCrvublGxQXoojyg&bvm=bv.1355534169,d.d2k" "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; ca-es) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 Safari/533.21.1"

La parte

"http://www.google.es/url?sa=t&rct=j&q=breiman%20dos%20culturas%20estadistica&source=web&cd=21&cad=rja&ved=0CDIQFjAAOBQ&url=http%3A%2F%2Fwww.datanalytics.com%2Fblog%2Fpage%2F33%2F%3Fp%3D...&ei=1QrgULj7E6qk0QXRwYHgCQ&usg=AFQjCNHpdZUVD15sC7CdOvUOppdcXAjweQ&sig2=hKh3vCnCrvublGxQXoojyg&bvm=bv.1355534169,d.d2k"

indica que el usuario buscó en google.es la cadena breiman dos culturas estadistica y la expresión cd=21 significa que mi página era el resultado número 21 según los algoritmos de Google. (Aunque dicha posición puede variar según el idioma del navegador y otras circunstancias que Google usa para personalizar las búsquedas).

El Ibex 35 al estilo GapMinder

Quiero representar hoy la evolución del Ibex 35 a lo largo del año pasado al estilo GapMinder. En concreto, usando un MotionChart de Google.

Primero, bajo los símbolos de los activos del Ibex de Yahoo! Finance:

library(XML)
simbolos <- readHTMLTable(htmlParse("http://finance.yahoo.com/q/cp?s=%5EIBEX+Components"))
simbolos <- as.character(simbolos[[9]]$Symbol)
simbolos <- gsub("-P", "", simbolos)

Luego, creo una pequeña función y se la aplico a cada símbolo:

library(tseries)

foo  <- function( simbolo, final = Sys.time(), profundidad = 365 * 24 * 3600 ){

    tmp <- get.hist.quote(
        instrument= simbolo, start = final - profundidad,
        end= final, quote="AdjClose",
        provider="yahoo", origin="1970-01-01",
        compression="d", retclass="zoo")

    precios <- as.data.frame(tmp)
    precios$fecha <- index(tmp)
    rownames(precios) <- NULL
    precios$simbolo <- simbolo

    precios$AdjClose <- 100 * precios$AdjClose / precios$AdjClose[1]
    precios$x <- as.numeric(precios$fecha)
    precios$x <- 1 + precios$x - precios$x[1]
    colnames(precios) <- c("precio", "fecha", "simbolo", "dias")

    precios
}

res <- sapply(simbolos, foo, simplify = F)
res <- do.call(rbind, res)

Finalmente, creo el gráfico:

Los nueve artículos favoritos de Tibshirani

Rob Tibshirani ha seleccionado recientemente una lista de nueve artículos de estadística publicados desde 1970. Son estos:

  • Regression models and life tables (with discussion) (Cox 1972). Según Tibshirani, David Cox merece el Nobel de Medicina por él.
  • Generalized linear models (Nelder and Wedderburn 1972). Es la base del paquete glm de R.
  • Maximum Likelihood from Incomplete Data via the {EM} Algorithm (with discussion) (Dempster, Laird, and Rubin 1977).
  • Bootstrap methods: another look at the jackknife (Efron 1979).
  • Classification and regression trees (Breiman, Friedman, Olshen and Stone 1984).
  • How biased is the error rate of a prediction rule? (Efron 1986).
  • Sampling based approaches to calculating marginal densities (Gelfand and Smith 1990).
  • Controlling the false discovery rate: a practical and powerful approach to multiple testing (Benjamini and Hochberg 1995).
  • A decision-theoretic generalization of online learning and an application to boosting (Freund and Schapire 1995).

Sanidad pública, sanidad privada

Lo siento. El título es engañoso. No voy a abundar en el tema de modelo sanitario. Aunque esté de moda. Traje a este debate ideas preconcebidas que se me han ido pegando durante años de andar sobre la faz de la tierra. Y mis esfuerzos me ha costado desprenderme cartesianamente de ellas para quedarme a la espera de que alguien me ilumine de manera clara y distinta. Solo sospecho que la respuesta no puede resumirse en un monosílabo, que es mixta y con ejércitos de demonios camuflados tras los detalles. Pero lo que opine es prácticamente irrelevante.

¿Eres un analfabeto numérico?

Si quieres comparar tu nivel de alfabetización numérica con una muestra de personas con estudios universitarios de muchas partes del mundo, puedes realizar este test.

Se lo llama Berlin Numeracy Test y está descrito en este artículo. Y de él extraigo una tabla, la cinco,

en la que aparecen los resultados del test en función de la combinación de país e idioma y ordenados por el porcentaje de respuestas en los cuartiles superiores. Y no me llena ni de orgullo ni de satisfacción, la verdad sea dicha.