No es país para "biplots"

No, parece que aún no estamos preparados para los biplots. En el curso Introduction to Infographics and Data Visualization de Alberto Cairo, nos pidieron sugierir mejoras y alternativas a este gráfico:

En el curso aparecieron sugerencias tales como esta,

esta, y otras similares que jugaban con los elementos gráficos habituales con más o menos arte, mejor o peor gusto en los colores, etc.

A mí se me ocurrió que los datos que aparecen en el gráfico original podía, con alguna salvedad y abusando del lenguaje, considerarse una especie de tabla de contingencia que incluía el número de personas que en cada país hacen uso de distintos tipos de servicios de internet. Y que entonces podría utilizar herramientas gráficas, tales como los biplots para visualizar los datos. El resultado fue

MapReduce con mincedmeat

Hace unos días implementé un proceso MapReduce usando mincedmeat, un pequeño entorno en Python para desarrollar este tipo de procesos distribuidos. El código y los datos pueden descargarse de este enlace.

Los datos de partida están en 249 ficheros de unos 25kb que contienen filas del tipo

journals/algorithmica/HarelS98:::David Harel::Meir Sardas:::An Algorithm for Straight-Line of Planar Graphs

es decir, publicación, autor (o autores) separados por :: y título de la publicación. Los tres campos están separados por :::.

Tesis de maestría: periodismo de datos, "big data" y "open data"

Tal vez a quienes siguen estas páginas les interese echar un vistazo a la tesis de maestría de Ángeles Mariño.

He aquí la introducción:

A medida que la información disponible en Internet se ha ido multiplicando, el Periodismo también fue ampliando sus fuentes de información de manera tan relevante que nació una nueva forma de contar historias: el Periodismo de Datos (Data Journalism en inglés), aquel que se basa principal o exclusivamente en bases de datos y documentación en línea para crear una historia.

¿Cómo vivir en un mar de datos?

Pues martes, miércoles y jueves de esta semana voy a tratar de averiguarlo acudiendo a las Primeras jornadas “Vivir en un mar de datos” (del Big Data a la Smart Society) organizados por la Fundación Telefónica.

Si alguien se deja caer por allí, que me ubique y nos tomamos un café.

(Soy breve: por mi mala cabeza, he acabado apuntado a demasiados cursos de Coursera y otros MOOC a la vez. Y como aragonés, me niego rotundamente a reblar.)

La crisis es buena para la salud, parece

Ayer leí el artículo Las listas de espera se agravan en El País que parece indicar indirectamente que la crisis tiene efectos beneficiosos para la salud.

Leyendo el artículo uno se queda con la copla de que ha crecido tanto el tiempo medio de espera para los tratamientos médicos como el número de personas que los aguardan. Los números pueden verse en el gráfico anterior, extraído del artículo. Lo curioso es que las proporciones son desiguales.

Cultura numérica, incultura numérica

Traigo hoy dos enlaces relacionados a mi bitácora.

No sé si conocéis OWNI, un Objet Web Non Identifié. Una de sus tres secciones prominentes se llama Cultures Numériques. No datos. No periodismo de datos. No OpenData. Sino culturas numéricas (supongo que el plural es un brindis a la ultracorrección política). Que tal sea el nombre invita a reflexiones que habrían de germinar por sí solas en las mentes de mis lectores.

El segundo tiene esta entradilla (con mi traducción):

Liberado BioStatFLOSS, una colección de recursos libres para la bioestadística y la epidemiología

Quiero publicitar hoy BioStatFLOSS, una recopilación de software (libre, como el propio nombre indica) para Windows, especialmente indicado a la hora de realizar trabajos en el campo de la bioestadística y la epidemiología (pero que también se puede utilizar para la realización de estudios estadísticos más generales).

El software (que incluye R como programa estrella) ha sido portabilizado —si no existía ya una versión portable, es decir, que no necesite instalación— y se ha creado un lanzador común desde donde se puedan llamar a todos esos programas (véase la captura adjunta). Este lanzador está programado en Lazarus (Free Pascal) y, en breve, se liberará el código fuente.

HHH, HHT y el comando "yield" de Python

Variable aleatoria X: tiramos una moneda al aire sucesivamente y contamos el número de veces que lo hacemos hasta obtener el patrón HHH (tres caras) en las tres últimas tiradas.

Variable aleatoria Y: lo mismo, pero hasta que salga el patrón HHT.

Entonces las medias de X e Y son iguales, ¿verdad? Pues no. (¿Alguien sabría decirme cuál de las combinaciones, HHH o HHT, tiende, en promedio, a aparecer antes? Pueden darse explicaciones muy complejas, pero existe una muy simple e intuitiva).

"Predictably irrational"

Estoy terminando de leer Predictably Irrational. Es un libro que recomiendo encarecidamente.

¿De qué trata? Aquí y en este vídeo de su autor, Dan Arieli, hay abrebocas (que se refieren fundamentalmente a su primer capítulo) que seguro que os soprenderán.

Al leer el libro, sin embargo, realicé un pequeño experimento mental. Con resultados bastante desasosegantes. Pensé en tomar una mesa amplia y una pila de fichas de cartulina. Luego, en cada una de ellas, escribir uno de los resultados del libro, que son del tipo frente al estímulo X la gente actúa así o asá. Generalmente, haciendo honor al título, el comportamiento parece irracional. Finalmente, tratar de ordenarlas de alguna manera, tal vez jerárquica, que me ayudase a extraer reglas y principios generales. Y da la impresión de que uno siempre acabaría encontrando cartulinas que no acabasen de encajar, que ponen de manifiesto contradicciones internas que impiden crear eso a lo que estamos (¿tal vez malamente?) acostumbrados: un sistema coherente de ideas.

Veinte herramientas de visualización

Este es un listado de 20 herramientas de visualización que he extraído de aquí. Están divididas en varios grupos:

  • Básicas: Excel y, extrañamente, CSV y JSON (que aun sin ser herramientas de visualización, son formatos usuales para el intercambio de información usados por ellas).

  • Visualización en línea:

    • Google Chart API
    • Flot, Raphaël y D3, librerías de JavaScript.
    • visual.ly, que sirve para crear esas configuraciones rectangulares de números y símbolos no siempre útiles que algunos llaman infografías.
  • GUIs interactivos: Crossfilter y Tangle.