Adaequatio rei et analysis

Tal será el título de la charla de una hora que daré en el Big Data Science Fighters en abril.

big_data_fighters

El título es una adaptación de este latinajo y lo usufructo más en la forma que en la sustancia, que la del original se me escapa. El mío servirá para condensar el cúmulo de problemas que he venido detectando en este mundo del análisis de datos: la falta de adecuación de las herramientas de almacenamiento, procesamiento y análisis de datos a la cosa. Y no me restringiré a las de hierro (¡o silicio!) o a las ristras de ceros y unos: también haré un repaso de algunas de las teóricas.

IV Meetup Machine Learning Spain: factorización no negativa de matrices y algunas aplicaciones

Me han invitado a hablar en el IV Meetup Machine Learning Spain. Será el miércoles 4 de marzo en el lugar que en el enlace anterior indica.

Mi charla será una versión extendida de un tema, la factorización no negativa de matrices y algunas aplicaciones, que mis lectores más fieles ya conocen.

No sé cuántos de mis lectores de Madrid y derredores querrán sumarse. Tampoco sé cuántos de ellos, al acabar, que ya será hora de cenar, querrán hacerlo conmigo en MartinaCocina, a un par de cuadras del lugar del evento, para hablar de cosas interesantes. Si hay quórum, reservo.

Global Urban Datafest: seré juez pero no parte

El fin de semana que viene (seis y siete de marzo) tendrá lugar el Global Urban Datafest en varias ciudades del mundo. Madrid será una de ellas.

Hay proyectos y equipos participando en ellos. Igual quieres plantear alguno de los primeros o sumarte (o conformar) uno de los segundos. Puedes deambular por las páginas a las que apuntan los enlaces anteriores para averiguar los detalles. De nuevo, una gran oportunidad para aprender cosas nuevas. Hay premios de diversa cuantía, pero eso es casi lo de menos.

Varianzas y variaciones de netos

Muchas cifras de interés son netos de dos magnitudes. Por ejemplo el déficit/superávit comercial, que es la diferencia entre exportaciones e importaciones; o los beneficios/pérdidas de una empresa, diferencia de ingresos y gastos.

Por un lado, las magnitudes subyacentes pueden estar sujetas a error estadístico. Incluso aunque el coeficiente de variación sea minúsculo para cada una de ellas por separado (p.e., del orden del 1%), pudiera ser que el error correspondiente a la diferencia (¡las varianzas se suman!) hiciesen del neto un valor no significativamente distinto de cero en muchas ocasiones.

bellostamisc y una moraleja

Antier recibí un correo inesperado. Me agradecía el paquete bellostamisc, sabía de mi salida de eBay y me ofrecía trabajo en su empresa.

bellostamisc (miscelánea de funciones de Bellosta, i.e., yo) es un paquete para mi uso personal que recopilaba funciones auxiliares que usaba en eBay para distintos fines: conexiones a bases de datos, paralelización, etc. Nunca pensé que fuera a ser utilizado por nadie que no fuese yo. No obstante, lo documenté en condiciones, lo publiqué en nuestro GitHub corporativo y una vez vi que era estable, se lo sugerí a quien me vino con los problemas que con él había resuelto.

Todos contra todos

R

¿Cómo se suman los cuadrados de un vector de números en un paradigma tradicional de programación? Se crea un bucle que lo recorre y que guarda las sumas parciales en un acumulador. Sumamente económico en términos de memoria: apenas consume unos pocos bytes en la pila. La versión funcional de la cosa se parece más a sum(x^2), que implica generar un vector de cuadrados y dilapidar memoria.

Así las cosas, en C uno tiende a recorrer y construir resultados parciales. R invita a crear estructuras de datos preprocesados y aplicar sobre ellas funciones resumen. Map y reduce, si se quiere.

Más sobre el error de medida

En el periódico del domingo nos regala Ángel Laborda un parrafito delicioso que abunda en el tema tratado en mi última entrada sobre el una error de medida.

Así dice:

Ahora bien, hay que tomar estos datos con muchas cautelas. Una vez más estamos delante de datos estadísticos de cierta complejidad a la hora de interpretarlos y de valorarlos. En primer lugar, se observa que la desestacionalización de los mismos que hacen, por un lado, el Ministerio de Economía y, por otro, el INE cuando los utiliza en el cálculo de la contabilidad nacional, difiere notablemente. En segundo lugar, los deflactores utilizados por ambos organismos para pasar de precios corrientes a constantes también vienen difiriendo significativamente (en el primer caso se utilizan los valores unitarios y en el segundo, los índices de precios de exportación e importación de productos industriales complementados con alguna otra información para los no industriales). Todo ello lleva a obtener tasas intertrimestrales bastante diferentes en un caso o en otro. Haciendo un cálculo aproximativo, hasta que en la próxima semana conozcamos las estimaciones del INE, llegamos a la conclusión de que la caída intertrimestral a precios constantes de las exportaciones ha sido algo mayor a la señalada anteriormente y, en cambio, la de las importaciones ha sido bastante menor, situándose incluso por debajo de las exportaciones, con lo que la aportación conjunta al crecimiento del PIB ha podido ser de nuevo negativa.

Error de medida

Por su interés y oportunidad, reproduzco aquí y en su idioma original (la parque que nos es más relevante de) un breve editorial de Simon Baptist, economista jefe de The Economist Intelligence Unit.

Así reza:

This week we had some apparent good news with [Indian] GDP growth at the end of 2014 revised upward to 7.5% but, looking closer, a large part of the good performance is due to changes in the way that GDP is calculated. These changes are welcome, as they better reflect the structure of the current Indian economy, but remind me that the mind-numbingly boring issues of price deflators and sectoral weights are actually much more important to economic statistics than issues of reform or central bank behaviour. Although it is less exciting, we economic commentators really should spend more time focusing on where our numbers come from rather than breathlessly extolling changes that are smaller than the likely measurement error. Either way, really understanding the context of data and forecasts is critical to making good business decisions.

Decisiones "a ojo de buen cubero"

¿Os acordáis del problema de la carta del otro día? Lo extraje del libro Risk Savvy de G. Gigerenzer.

Uno de los grandes temas del libro es la distinción entre riesgo e incertidumbre. Se decanta por la perspectiva de Knight discutida en el enlace anterior: en situaciones de riesgo, la distribución de probabilidad es conocida (p.e., juegos de azar) y el aparataje probabilístico puede ser aplicado en su entera potencia matemática. En situaciones de incertidumbre, la situación es distinta y de poco o nada sirven los formalismos.

¿Vernacularidades? No, gracias

Como sabéis, vuelvo a España. Otro proyecto que termina. Habrá momentos para la nostalgia. Pero también, al menos, dos motivos para autofelicitarme. El primero tiene que ver con todo lo aprendido en estos doce meses.

El segundo, con todo lo que no he aprendido. Soy muy estricto con lo que me interesa y lo que no. ¿Qué me interesa? Aquello que me puede ser útil en otra parte. Al resto de las cosas las denomino vernacularidades y trato de evitarlas. Vernacular, etimológicamente, significa nacido en la casa de cada uno. Pero yo ya tengo una casa, la mía propia, gracias.