Por qué soy escéptico con respecto al periodismo de datos

Lo dejé dicho hace un tiempo: en algún momento de esta charla expresé mis motivos.

Hay iniciativas muy encomiables que abogan por la apertura de datos. Convengo que la disponibilidad de datos de organizaciones púbicas y privadas facilitaría su fiscalización. En particular, la fiscalización que realiza la prensa: su acción sería más eficaz de no tener que jugar al gato y al ratón.

Pero hay motivos para el escepticismo. Hay motivos para pensar que la liberación de datos es condición hasta cierto punto necesaria pero en modo alguno suficiente para alcanzar esos loables objetivos. Existen dos contraejemplos rotundos. Se refieren a ámbitos en los que la información es pública, abundante e inmediata y que, además, tienen suma importancia periodística: economía y deportes.

Vectorización en R: un contraejemplo

No hay regla sin excepción, dicen. Para la recomendación casi única para quienes se quejan de la lentitud de R, es decir, ¡vectoriza!, he encontrado hoy una.

Sí, el artículo deja R por los suelos. En el fondo, no tanto, porque viene a decir que R es malo para lo que la documentación de R dice que es malo: véase cómo en Writing R Extensions nos advierten que la convolución is hard to do fast in interpreted R code, but easy in C code. Y el problema que tratan de resolver los autores contiene una convolución (a través de una cadena de Markov, para pasar de un nivel de capital al del siguiente periodo). Es decir, en cierta medida solo viene a confirmar que la documentación de R es buena.

Hacer amigos vs reponer amigos vs reemplazar amigos

Acaban de escribirme que no, que lo importante no es participar, que no es hacer amigos, que es ¡ganar! Claro que el comentario me llega desde el Cono Sur minutos después de que Argentina gane de manera no muy lucida a Suiza en el Mundial.

Pero eso me ha dejado pensando: ¿realmente es positivo hacer amigos? Habiéndome desplazado a un país nuevo en el que de repente me veo rodeado de multitud de adláteres, es algo que me planteo: ¿hago algún amigo? ¿O paso y voy a lo mío?

Lecturas disparatadas: la salud de los críos y el desempleo

Hay gente que en lugar de escribir cosas debería invertir su tiempo en leer otras. Pero como

  • no me hacen caso,
  • escribiendo cosillas escalan poquito a poco escalafones académicos y, encima,
  • lo pagamos los contribuyentes felizmente engatusados eso del oropel del I+D y nosequé otros intangibles onerosos y de dudosa utilidad pública,

podemos hoy disfrutar de otro ejercicio más de ese añejo ritual de la búsqueda del numerito inferior a 0.05 que tiene por título Newborn Health and the Business Cycle: Is it Good to be Born in Bad Times? y que adornará a perpetuidad el currículo de sus ambas autoras.

Disponible una nueva versión de MicroDatosEs

R

Acabo de subir a CRAN una nueva versión de MicroDatosEs, un paquete para procesar automáticamente en R ficheros de microdatos públicos españoles.

A los cambios y mejoras a los que me referí el otro día, esta nueva versión añade otras, obra de Carlos Neira, que es ahora contribuidor oficial del paquete.

Carlos también contribuyó a detectar y corregir un error inducido por el INE, que cambió el formato del fichero introduciendo una nueva variable sin aviso previo.

El índice de birrieza para distribuciones de probabilidad

Pido disculpas por usar birrieza, que no es una palabra que no existe. Si a alguien se le ocurre otro término mejor, que lo sugiera. Pero es que hay distribuciones de probabilidad que son una birria. Y de ellas me voy a ocupar hoy.

Pero antes, una digresión breve. Todas las distribuciones de probabilidad, en la práctica, están acotadas. Aunque sea por el número de átomos del universo. ¿Cuál es la importancia de dicha digresión? Que implica que no hay distribución que, en la práctica, se resista el teorema central del límite.

Causalidad a la Pearl y el operador do

Un tipo me pasó el librito de Pearl, Causality, y se ha pasado varios días dando la vara con que si me había leído ya el epígrafe. Pues sí, lo he leído este finde. Y no solo lo he leído sino que voy a escribir sobre ello.

Había tratado de leer cosas de Pearl en el pasado. Pero las encontraba demasiado llenas de letras difíciles de comprender si no se entendían bien las fórmulas. Que, a su vez, eran difíciles de comprender sin tener una idea clara de qué indicaban los diagramas adjuntos. Para cuya comprensión había que hacerse bien con el texto. Vamos, que nunca había sacado nada en claro. Aunque, confieso, la coyuntura en la que suelo leer ese tipo de cosas (metros, trenes, autobuses) tampoco me ayuda.

Dos citas de 1983 sobre estadística y métodos computacionales

Rescato aquí para mis lectores dos citas de un artículo de 1983, Computer Intensive Methods in Statistics, de Efron y Diaconis, por dos motivos: su valor intrínseco y que consideren leer el resto, particularmente el principio y el final.

La primera es (con mi traducción):

[…] el ordenador está cambiando la teoría de la estadística. Arriba hemos examinado nuevas teorías que han surgido a causa del ordenador. Otro cambio evidente es de los conjuntos de datos enormes que están disponibles a causa de la memoria de los ordenadores. Además, el ordenador permite usar métodos tradicionales para resolver problemas más grandes. El análisis de componentes principales es un buen ejemplo: fue inventado antes de que fuese realmente práctico.