Recomiendo a mis lectores el artículo Visualizing Uncertainty About the Future de D. Spiegelhalter, M. Pearson e I. Short. Trata sobre qué tipo de representaciones gráficas son más adecuadas para transmitir información acerca de la probabilidad de fenómenos futuros a distintos tipos de audiencias, incluidas las más anuméricas.
Abarca desde los incipientes trabajos de Nightingale y Neurath hasta Gapminder y los más modernos desarrollos de la infografía. Aplaude, por ejemplo, la iniciativa del Banco de Inglaterra de publicar información sobre la posible evolución de indicadores económicos futuros de la forma
que ilustra el carácter incierto de toda proyección a futuro en lugar de sucumbir a la presión de quienes preferirían una cifra redonda.
Algunos de los consejos que dan los autores son:
Usar múltiples representaciones porque no habrá una única que se ajuste a las necesidades de toda la audiencia, teniendo en cuenta que no toda puede tener una adecuada formación numérica.
Utilizar palabras y números para ilustrar los gráficos.
Usar gráficos que permitan la comparación de la parte con el todo, teniendo cuidado con las escalas y magnificando si procede las probabilidades pequeñas.
Para evitar el sesgo del marco, proporcionar porcentajes o frecuencias que muestren los resultados en las dos alternativas que se contrasten y utilizar denominadores de igual tamaño para las proporciones.
Tratar de evitar recursos que produzcan una respuesta emotiva o afectiva.
Evitar la graficaca y el uso de, por ejemplo, el área para representar magnitudes.
Me ha llegado noticia de una entrada en un blog, Visualizing Bayesian Updating, en el que se muestra visualmente cómo se actualiza la distribución a posteriori conforme aumenta el número de ensayos en un problema bayesiano simple. Explica también los fundamentos estadísticos del asunto.
Yo me limitaré a ofrecer una nueva versión del código —que no funcionaba copiando y pegando sin más— en el que he introducido ciertas modificaciones. Es el siguiente:
Quiero pensar que mis lectores encontrarán útil el ejemplo de uso de la función mapply (para recorrer dos vectores simultáneamente), curve (para representar gráficamente funciones).
Hay cierto interés por los treemaps en general y existen paquetes como treemap y la función map.market del paquete portfolio que permiten construirlos y obtener gráficos como este
que representa la capitalización bursátil de las empresas del IBEX-35 y el porcentaje que destinan al dividendo. Pero me produce cierto desasosiego utilizar áreas y colores para representar magnitudes: ¿es fácil comparar el tamaño relativo de TEF y ELE? ¿Cuánto mayor es ITX que BBVA? ¿Y el dividendo de MAP comparado con el de ACS?
No estoy seguro de hasta qué punto ese tipo de gráficos resultan superiores a otros tal vez menos impactantes como
o
¿Qué opinarán mis lectores?
Nota: Como siempre, el código:
library(ggplot2)library( treemap )
dat <-read.table("http://www.datanalytics.com/uploads/datos_treemap.txt", sep = "\t", header = T )
dat$div[is.na( dat$div )]<-0
tmPlot( dat, index = "valor", vSize = "cap", vColor = "div", sortID = "-cap")
p.text <-ggplot( dat, aes( x = cap, y = div, label = valor ))+ geom_text()
p.text <- p.text + scale_y_continuous( name = "% dividend")
p.text <- p.text + scale_x_continuous( name = "capitalization")
p.text
dat$valor <-as.factor( dat$valor )
dat$valor <-reorder( dat$valor,-dat$cap )
p.bar <-ggplot( dat, aes( valor, weight = cap, fill = div ))+ geom_bar()
p.bar <- p.bar + opts( axis.text.x = theme_text( angle = 90))
p.bar <- p.bar + scale_y_continuous( name = "capitalization")
p.bar
El siguiente vídeo contiene una entrevista con Alon Halevy, que dirige el Data Group en Google Research. Aunque confunda Suecia y Finlandia, merece la pena la presentación que hace de Google Fusion Tables, una plataforma para compartir, combinar, distribuir y representar gráficamente conjuntos de datos.
Aunque los diagramas de puntos fueron introducidos por Cleveland en los años ochenta, a pesar de sus ventajas, no gozan de la popularidad de otros métodos de representación gráfica.
Una representación más limpia y con menos tinta inútil.
Permite resolver el problema de la representación de varias observaciones por sujeto más elegantemente que yuxtaponiendo barras, como ilustra el gráfico que aparece debajo.
Y una tercera que encuentro más dudosa: que resuelven el problema de los diagramas de barras truncados: el no representar el trazo que une el origen con los valores representados —dice la autora—, el efecto perceptualmente distorsionador de truncar la gráfica no es tan acusado. Aunque yo mantengo mis reservas al respecto.
¿Y cómo podemos crear diagramas de puntos con R? Existen varios mecanismos. El más básico lo proporciona la función dotchart. La función dotchart2 del paquete Hmisc es una versión mejorada de la anterior:
Y quienes necesiten realizar diagramas de puntos más sofisticados —con varios paneles, etc.— cuentan con las funciones dotplot del paquete lattice y varias de ggplot2, que compara entre sí el autor de este artículo.
—Sí, ya sabemos que en EE.UU. e Inglaterra las cosas son distintas, pero nosotros semos mediterráneos y tenemos sol y aceite de oliva.
—Además, uno siempre puede comprar la publicación España en cifras en las librerías Índice a un precio popular establecido anualmente en el BOE (o, incluso, ¡descargarla en PDF gratis!).
—Ejque…
Etc.
Pero, y Kenia qué, ¿eh? ¿Nos vamos a dejar ganar por Kenia?
A pesar de su buen aspecto, no he tenido tiempo de probarlo. Pero, aprovechando que se acercan las vacaciones, tal vez alguno de mis lectores puede hacerlo y dejar una nota sobre su funcionamiento, ventajas, desventajas y posibilidades. ¿Algún voluntario?
A la lista de herramientas de visualización y de análisis visual de datos públicos de las que ya hemos hablado en alguna ocasión, tales como Gapminder o Many Eyes, añado hoy unas de cuya existencia he venido a enterarme recientemente: las desarrolladas por la empresa sueca NComVa.
Los más interesados de mis lectores podrán echarle un vistazo al manual de usuario de la aplicación. Y los que estén todavía más interesados, dar guerra para que INEs y otros organismos públicos españoles —o donde quiera que residan— se pongan a la altura de los tiempos.
[d]esarrollamos este sitio web con el objetivo de incrementar la cultura estadística en la sociedad y favorecer así el buen uso de la información estadística.
Aquí podrás encontrar un conjunto de productos de carácter divulgativo que permiten conocer los principales conceptos en que se basa la elaboración de la información estadística, el contexto en que se desenvuelve la estadística oficial y algunas curiosidades y aplicaciones.
Sin dejar de aplaudir la iniciativa, no he podido dejar de advertir que contiene recomendaciones que desde estas páginas no nos hemos cansado de denunciar. Véase si no, en la sección Tipos de gráficos ¿cuál uso? cómo no advierten contra el uso de gráficos de sectores y, sobre todo, cómo proponen, en lugar de denunciar, lamentables ejemplos de graficaca tales como este pictograma:
Les he escrito al respecto y, la verdad sea dicha, me han contestado enseguida. Parecen, además, muy dispuestos a escuchar propuestas de mejora.
La gente que escribe en el Financial Times y mucha de la que lo lee suele vestir de traje. Son gente que sabe de lo que habla y están versados en muchos temas no triviales. Podrían ir en chanclas, pantalones cortos y camisetas viejas sin que eso afectase a su conocimiento y entendimiento de las cosas. Si fuese el caso, con cuatro frases que intercambiásemos con ellos nos daríamos cuenta de que la impresión que tal vez no causasen no se corresponde con su erudita esencia. Pero el hecho es que gastan corbata.
En este siglo de lecturas superficiales, la impresión cuenta. La impresión que pueda causar una gráfica en un lector con prisas puede ser más relevante que la sesuda discusión —quizás leída por los menos y entendida por una fracción de ellos— que la circunde.
En ese contexto quiero analizar un bonito ejemplo de graficaca aparecida en el FT del día 16 de abril. Muestra sobreimpresas la evolución del índice de inflación en China y a tasa de cambio de su moneda con respecto al dólar en los últimos . Y no quiero hablar acá tanto sobre estas cuestiones de política monetaria como analizar el gráfico desde el punto de vista de lo que éste sugiere y cómo se ha conseguido crear tal ilusión.
En primer lugar, las dos series representadas son monótonas: durante el periodo ha amentado la tasa de inflación y ha disminuido el número de yuanes que le dan a uno por un dólar.
La escala de una de las series se ha invertido para que ambas tengan un aspecto creciente.
La escala de las dos series se ha modificado para que ambas comiencen en la esquina inferior izquierda y terminen en la esquina superior derecha.
¿Qué sugiere esta representación? Correlación, una correlación casi perfecta entre las series. Pero nótese que el mismo recurso gráfico podría crear ilusión de correlación entre cualquier otro par de series monótonas, ¡estén o no relacionadas!
Puede que el artículo tenga razón: que subidas del índice de precios hayan llevado al gobierno chino a implantar políticas de cara a la apreciación de su moneda que ayuden a mitigarlas. O que la teoría económica sea falsa: que subidas del tipo de cambio estén acompañadas de aumentos de precios.
Como fuere, mis lectores han aprendido cómo crear (ilusión de) correlación con fotochop.