RMarkdown a la Tufte

El Sr. Tufte debiera ser un conocido de los habituales de estas páginas. Los desavisados siempre pueden ponerse al día aquí.

El Sr. Tufte escribe libros. Los escribe, los edita, los publica y creo que hasta los vende él solo. No puede ser de otra manera. Mensaje, texto, tipografía, maquetación, gráficos, los elementos todos de sus libros, en cada una de sus páginas, están combinados y medidos hasta el menor de los detalles. Defiende que los elementos gráficos forman parte consustancial del mensaje. Nada de referirse a la figura 7.18 que puede estar dos páginas más allá. Los gráficos tienen que estar cocolocados a la discusión. Etc.

Sí, señor ministro... y encuestas

Cayó en mis manos

ss_netconfusion

que son los resultados de una encuesta en la que la misma pregunta (en puridad, una pregunta sobre una cuestión global y otra sobre un asunto particular de la anterior) reciben respuestas manifiestamente contrarias y contradictorias por parte de una muestra del ostentador de la soberanía.

Lo cual me recordó que hacía tiempo había dado con https://www.youtube.com/watch?v=G0ZZJXw4MTA extraído de Yes, Minister y que en inglés no subtitulado ilustra muy amenamente los efectos que sobre el público tiene la manera en que se plantean las cuestiones.

Paralelización en R con snow

Suelo trabajar un servidor con ocho CPUs. Cuando quiero paralelizar código en R, suelo utilizar [parallel::mclapply](https://stat.ethz.ch/R-manual/R-devel/library/parallel/html/mclapply.html) (como aquí). Pero no tengo una máquina. Tengo varias. Y antes, de hecho, muchas.

¿Cómo paralelizar en distintas máquinas?

Se puede usar Spark (y SparkR), por ejemplo. Pero una ruta que no había ensayado jamás es la de la vieja escuela, i.e., MPI, snow y demás.

Pero si

  • tienes varios servidores corriendo un sistema operativo decente,
  • instalas R y snow (y todo lo que necesites) en todos ellos y
  • configuras los servidores para poder acceder a través de ssh sin contraseña desde uno central,

y, entonces, ejecutas

Me muerdo la lengua... por no contarlo todo

R

Me tengo que morder la lengua por no contarlo todo. Escribiré hasta donde pueda hacerlo. Que es casi nada. La cosa es que ha llegado a mis oídos que una muy importante empresa española con muchos, muchos empleados planea una migración muy seria de SAS a R.

Lo cual no deja de ser un cotilleo empresarial más. Que, como tal, no tendría cabida aquí. Salvo por el hecho de que me consta que me leen muchos estudiantes, muchos profesionales que se replantean sus carreras, muchos desempleados que se están formando de cara a su reincorporación.

Gráficos e interactividad: una ocasión desaprovechada

Cuando los gráficos son estáticos, los compromisos mandan. ¿Mostramos las diferencias relativas? ¿O las magnitudes absolutas? Ocurre casi indefectiblemente que cuando uno opta por una opción siempre alguien en la audiencia levanta el dedo y sugiere la alternativa. ¿Mostramos ambas a la vez? Entonces abusamos de la usualmente limitada superficie construible de nuestro informe y, además, violentamos ese principio de que lo bué, si bré, dos ve bué.

La interactividad en los gráficos permite superponer vistas diversas de unos datos en un recinto acotado. Pagamos un peaje: tenemos que descubrir nosotros mismos la que más nos interesa y navegar hasta ella. Pero, por lo general, compensa.

Como no tengo tiempo, voy a publicar una chorrada (y una coda)

Como no tengo tiempo, voy a publicar una chorrada. Voy a coger unos datos que encuentre por ahí, voy a tomar alguna variable, voy a pintarla (en un mapa, si puede ser) y luego voy a construir una narrativa. Espero que no os deis cuenta y me lo creáis todo.

Comienzo.

Los datos del World Values Survey (aquí podéis obtenerlos) son importantes y guays. De todas las variables que contiene, voy a extraer una, la variable importante (VMI).

Dualidad en la práctica: lecciones de la guerra fría

Uno de los conceptos más lábiles y menos aprehensibles que he encontrado en los libros desde mis tiempos de primero de carrera es el de la dualidad. El caso histórico que traigo hoy a estas páginas os ayudará a desabstraerlo. O, en el peor de los casos, os entretendrá.

En 1930, el Ministerio de Transportes de la Unión Soviética publicó un libro sobre planificación ferroviaria en el que colaboró A.N. Tolstoi estudiando un problema de optimización. En la URSS había factorías, ciudades, minas, etc. y ferrocarriles que los unían. Tolstoi calculó la capacidad máxima de la red ferroviaria y su funcionamiento óptimo.

Boceto de entrada sobre bits y referéndums

El tema tenía que salir por ser español —y todos sabemos que es recurrente allá— y pasar muchos días al mes en Suiza, país en el que se piensa cuando se habla de referéndums. Más que salir —corrijo— me lo sacan tanto aquí como allá. Así que escribo sobre él. Pero en lugar de una entrada bien articulada, para la que no tengo tiempo, voy a limitarme a esbozar una serie de argumentos, los que, cuando llega el caso y tengo ocasión, pongo sobre la mesa.

Mi querido colega de Iberia:

Te escribo desde Zúrich. Tenía, o eso creía yo, un vuelo a Madrid esta tarde. Pero al llegar al aeropuerto, no constaba en la lista de viajeros. El motivo figura en una subsubsubpágina de vuestro portal: si un viajero pierde el vuelo de ida, como me ocurrió el lunes pasado, se cancela automáticamente el de vuelta.

Como tú también has viajado mucho, podrás imaginar lo que ha sucedido en el aeropuerto: paseos de mostrador en mostrador hasta recibir una oferta rayana en impuesto revolucionario: me han ofrecido uno de esos asientos vacíos por un precio que, lo siento, no estoy dispuesto a pagar. He vuelto a casa y he comprado un billete a la competencia: volaré desde Basilea, la ciudad de nuestros bienamados Bernoullis, el sábado a las 6:10 AM. Viajaré en último tren del viernes y mataré el rato en el aeropuerto como cuando estudiante.

Spark gana la competición Gray Sort de 2014

Esta de hoy es una entrada muy friqui que se sirve de la casi excusa de que los creadores de Apache Spark han ganado la competición Gray Sort de 2014 para recomendar a sus lectores a estar alerta a las novedades que llegan.

spark-logo

Todavía colea el siglo XX y todavía pagan dinero por cosas que algún día consideraremos tan entrañables como el ZX Spectrum de 48kB tales como:

  • Colorear casillas en Excel.
  • Escribir pasos data en SAS.
  • Tener reuniones de dos horas.
  • Guardar todos los archivos en el disco duro de un portátil.
  • Y otras cosas que igual un día me suelto y cuento.

Pero el futuro está a la vuelta de la esquina y los pájaros tempraneros de hoy en día, que ya saben R (porque son, como digo, pájaros tempraneros), aprenden Spark y Scala.