Si participase en MadData...

El otro día ayudé a divulgar por aquí MadData, el datatón de datos abiertos del ayuntamiento de Madrid. Algunos me habéis preguntado si participaré. Pero estoy lejos (y, muy, muy ocupado).

Eso sí, os voy a contar dónde me gustaría meter la cuchara. En datos del ayuntamiento de Madrid, claro. Pero no los abiertos, ni los públicos, ni los conocidos. Sino los otros.

Os pongo en precedentes. Sabréis —si habéis seguido estas páginas— que soy el copropietario de MartinaCocina, un local que no sé si clasificar como cafetería o restaurante, en el centro de Madrid. En él hemos celebrado, incluso, algún evento del interés de mis lectores.

Ni-nis y estados transitorios

Imaginemos un país feliz en el que mucha gente trabaja durante dos años y luego se toma un mes para buscar otro trabajo mejor. ¿Cuál sería su tasa de paro? Del 4 %: la gente pasaría en el paro uno de cada 25 meses. Ese estado transitorio de un mes se manifestaría así en la EPA de dicho país, como un stock de desempleados.

Descrita como flujo, la situación parecería propicia. Descrita como stock, habría quien le pusiera pegas.

MadData: datatón de datos abiertos

Copio (adaptándolo) de aquí:

_everis y MadridEmprende organizan el primer Open Datathon de Madrid.

La competición consiste en crear soluciones innovadoras a partir del uso de datos abiertos. MADdata pondrá a disposición de cada participante datos de la ciudad de Madrid, procedentes del portal de datos abiertos del Ayuntamiento, de servicios públicos, de transporte y movilidad y de redes sociales._

maddata

La inscripción está abierta hasta el 25 de julio de 2014.

Finalmente, he aquí una frase del anuncio que me hace mucha gracia:

En serio con Spark: instalación

Me he puesto en modo estoy serio con Spark. Lo instalé en mi ya manida máquina virtual (voy a subir una nueva versión de ella pronto), pero hoy la voy a instalar en mi portátil. Y con la idea de, en los próximos días, montar un clúster en condiciones.

Los pasos son los siguientes:

  1. Ir a la página de descargas y seleccionar una versión ya precompilada. Hay varias porque Spark se enlaza con librerías relacionadas con Hadoop (aunque uno puede utilizar Spark perfectamente sin él) y hay varias versiones mutuamente incompatibles de Hadoop. Como no tengo ninguna instalada en el portátil, cualquiera me vale.
  2. Descomprimir, mover el directorio a /opt y, opcionalmente, cambiar propietarios y grupos (a root).
  3. Crear un enlace blando para vagos: sudo ln -s /opt/spark-1.0.1-bin-hadoop1/ /opt/spark
  4. Arrancarlo (usando la interfaz para Python): /opt/spark/bin/pyspark

En la consola, ahora, se puede ejecutar:

Facetas para entender, tal vez, la evolución del paro

La verdad, no sé de dónde los sacan porque la EPA es trimestral. Pero el INE publica datos mensuales de la tasa de desempleo y las cuelga de una de esas URLs que tienen pinta de cambiar con cualquier soplo (es decir, aviso de que en cualquier momento el enlace deja de funcionar). Por ssi acaso, estos son los datos a día de hoy.

También aparecen publicados regularmente en prensa. Y los expertos opinan sobre si la cifra es buena y o mala. Pero, ¿buena o mala con respecto a qué? Así que hoy voy a ensayar un marco en el que plantear la pregunta:

Dos descomposiciones positivas de tablas de contingencia

Voy a seguir poco a poco con este tema mío tan recurrente de las factorizaciones (aproximadas) positivas de matrices (también positivas). No escribo más porque, como casi todo lo que llamamos trabajo es, simplemente ruido, las cosas que llevan a otras nunca pasan por el asunto en cuestión.

Pero hay dos descomposiciones positivas de matrices positivas bien conocidas de todos. La primera es esta: $X=IX$, donde $X$ es una matriz de dimensión nxm e $I$ es la cosa más parecida a la matriz identidad de dicha dimensión. No aporta gran cosa. En particular, no compresión y no comprensión de la estructura de la matriz.

El Partido de la Media Ponderada

Hoy he hecho limpieza de mi directorio de descargas. En él he encontrado unos cuantos PDFs de Eurostat, las habituales notas de prensa que resumen indicadores europeos por país (p.e., este o este).

Hojeando unos cuantos por encima no he podido dejar de advertir la excentricidad de España. Somos casi un outlier, se nos mire por donde se nos mire. Y cuando nos parecemos a algún otro país, es el equivocado.

Pensando sobre estas cosas me ha venido a la cabeza una idea sobre la que edificar una carrera política en otra vida: crear el Partido de la Media Ponderada. O el de la Media Ponderada y Windosorizada. Que tendría un único punto programático (y mandato): sea cual sea el asunto entre manos, acudir a Eurostat, bajar la tabla en cuestión, calcular la media (del tipo que sea) y convertir ese numerito en el objetivo de toda política. Más menos épsilon, claro.

¿Fascinados por las cosas circulares?

Llevo un tiempo prestando especial atención a los gráficos circulares. Y no me refiero a los innombrables. Hablo más bien de otros como

procedencia_jugadores_futbol

extraído de aquí o

marketing_circle_graph

que encontré acá.

¿Realmente aporta algo el uso de coordenadas polares? ¿Por qué nos fascinan? ¿Por qué nos resultan tan naturales y familiares? Más aún, ¿abusamos de ellos? ¿Existen alternativas cartesianas más eficaces?

Vengo, como digo, prestando atención a los gráficos circulares y planteándome esas preguntas después de leer Our Irresistible Fascination with All Things Circular. Artículo que, por supuesto, invito a hojear.

Estrategias escalables (con R)

Hay quienes preguntan cómo cargar con R un csv de 8GB en un portátil de 4GB de RAM. La verdad, he leído respuestas la mar de extravagantes a este tipo de cuestiones: p.e., recomendar SQLite.

Yo recomendaría Scalable Strategies for Computing with Massive Data. Entre otras cosas, porque para eso lo escribieron sus autores: para que se lea. Y porque está cargado de razón y buenos consejos.

Una cosa con la que tropezará enseguida quien lo hojee es:

Demasiado bueno para ser cierto

O el porqué de la importancia de los outliers.

outlier1

Hace unos días me presentaron unos datos. Demasiado buenos para ser ciertos. Casi seguro que reflejan un efecto que no es el que se quiere medir. Estaban muy fuera de rango.

Leí los 93 folios del informe de Gotham sobre Gowex. Si algo debió llamar la atención de esa gente era que la información pública de Gowex estaba plagada de outliers: consistía en una sistemática comparación de ciertas métricas públicas de la empresa con las de sus competidores. Outliers por doquier. El resto de la historia, conocido: ponerse en corto, publicar y hacer dinero.