Gráficos

Graficaca 2.0

Hace casi veinte años, cuando tomaba mis lecciones de conducción, el profesor de la autoescuela —a la sazón, mi tío— pronunció una frase que aún me persigue. Todavía hoy, casi veinte años después, me ocurre que, inopinadamente, me abstraigo del mundo y la pondero. Y sigo sin saber por dónde agarrarla. Lo que aquel día dijo mi tío tras levantar la cabeza del Marca (y mientras yo me afanaba por aparcar en batería en un costado de la ciudad universitaria de Zaragoza) fue lo siguiente: “La quinta del Buitre le ha hecho tanto bien como mal al Real Madrid”.

Desahucios en España y su estructura geográfica

Participo (de manera muy pasiva) en un foro de periodismo de datos de Barcelona. En él se planteó la posibilidad de desarrollar un proyecto para recopilar información sobre desahucios y entender mejor este fenómeno.

La iniciativa partió de Carlos Alonso, Concha Catalán y Karma Peiró y, recientemente, Alberto Gonzalez Paje ha cruzado varias bases de datos (como esta, la de la población por provincias del INE, etc.) para crear el material con el que he construido el siguiente gráfico:

El paro, ¿cosa de hombres?

Está de moda hablar de paro. Pero las discusiones al respecto adolecen de una serie de carencias:

  • Son excesivamente retrospectivas: nos aburren con la serie temporal, lo que pasó en 2003, en 1995 y otras fechas ya amortizadas.
  • Tienen un sesgo administrativo: honestamente, lo que pase en Andalucía importa (o debería importar) poco a un andaluz que acaba de graduarse y busca su primer empleo. Además de que existen opciones fuera de las distintas comunidades autónomas, no hay un mercado de trabajo sino cientos de mercados de trabajo estancos dentro de cada una de ellas.
  • El tema de la desigualdad entre sexos se trata de manera totalmente pueril: apenas se hace un esfuerzo por controlar el resto de las variables de confusión que pueden afectar a las tasas de paro entre sexos (p.e., la edad, el nivel educativo, etc.).

Interesa más pensar qué puede pasar en el futuro. Es complicado pero, aun así, hay fenómenos (como los demográficos) de una inercia ineluctable. Nuestros políticos, además, deberían estar pensando cuántos médicos, cuántos ingenieros, cuántos electricistas puede necesitar nuestra economía al cabo de los plazos multianuales que necesita la formación de nuevos profesionales. Para que no nos pase como en el pasado.

Edad, nivel de formación, sexo y paro

No sé si alguien podrá ayudarme con este gráfico que he hecho con Mondrian:

Está construido a partir de los microdatos de la última EPA e indica el porcentaje de parados (resaltado en verde) dentro de las siguientes tres categorías:

  • Tramos de edad (ordenados)
  • Nivel de estudios (desde los que no han completado la primaria hasta los universitarios)
  • Sexos

Desafortunadamente, he perdido las etiquetas. ¿Podría alguno de mis lectores ayudarme a identificar a qué categoría pertenece cada barra?

Otra oxímoron: notarios y estadísticas

El otro día fui al notario. Una notaría es un sitio lleno de papelotes. Decía yo: “todos los legajos de ese estante caben en mi pendrive”. Y me hacían chistar por si mis palabras podían llegar a oídos susceptibles. Luego, por unos papeles (por triplicado y todos con grandes sellos y rúbricas) impresos a partir de plantillas de Word en cuyas casillas teclea un administrativo tus apellidos, te sacan 120 euros. ¡Son tan españolas las notarías!

Gráficos estadísticos y mapas con R

R

Me ha llegado noticia de un nuevo libro sobre R, Gráficos estadísticos y mapas con R recién publicado.

Los autores son Cástor Guisande y Antonio Vaamonde, ambos de la Universidad de Vigo. Y de la ficha del libro extraigo:

En este libro se presentan en primer lugar las técnicas generales para la construcción de gráficos en R, con numerosos ejemplos de aplicación que permitirán al lector utilizar las funciones básicas con soltura, y así poder sacar el mejor partido de R para la construcción de gráficos personalizados.

Competición en Forbes: y el peor gráfico es...

… este:

Está hecho con Excel y representa los números 2, 4, 6 y 8. De acuerdo con la página en la que se anuncia el resultado del concurso,

los conos tocan el fondo de la figura. La profundidad es un parámetro que puede cambiarse en Excel, pero muchos usuarios lo ignoran. La mayor parte de los lectores subestiman la altura del cono cuando la profundidad no es cero. La forma del cono también tiende a hacer subestimar las alturas.

Patrones hexagonales con R

R

Navegando por internet di con el gráfico

(que puede encontrarse aquí) además de un enlace al código en Matlab usado para generarlo.

Diríase que lo programó un contable. Tratad de seguirlo y veréis por qué lo digo.

Y por entretenerme, traté de generarlo con R. Y creo que de una manera algo más intuitiva:

  1. Creo una función que sabe pintar un hexágono en una posición dada.
  2. Creo una retícula de centros de hexágonos del tamaño adecuado.
  3. Pinto finalmente un hexágono en cada uno de esos centros.

El código es

Representación de datos asociados a grupos

Tropezó precisamente con este problema un compañero mío: ¿cuál es la manera más efectiva de representar 6 o 7 valores numéricos asociados a otros tantos grupos? Es sorprendente que en ninguno de los largos años que uno pasa educándose no le ayuden a resolver ese tipo de problemas (y en cambio sí a saltar un potro o pintar el archifamoso círculo cromático con témperas).

Así que para referencia de todos, dejo aquí un enlace a un artículo que encontré el otro día sobre este asunto del que extraigo y traduzco las observaciones fundamentales a la hora de representar conjuntos de datos tales como los que aparecen representados en el siguiente gráfico (en el que se usa un dotplot):

Gráficos "dinamita", desaconsejados

No sé por qué se llaman así. Ni idea. Vine a enterarme de tal nombre a través de un comentario de Carlos Ortega en la lista de usuarios de R. Parece que se usan habitualmente en diversas áreas y tienen el siguiente aspecto:

Se trata de diagramas de barras a los que se añaden unos apéndices que tratan de medir la variabilidad a la que se entiende que están sujetas aquellas. Una representación alternativa del mismo conjunto de datos ilustra el motivo por el que se desaconseja su uso: