Tres grandes números

Que el calor fríe las neuronas del autor de estas líneas es algo que sus lectores pueden haber colegido del espaciamiento de las entradas. Y hoy se contentará con yuxtaponer tres números que quizás ellos hayan visto escritos en lugares distintos. Pero que tienen tantos ceros y son de tal magnitud que apenas se pueden comparar sino entre sí. Son:

En fin.

Una macro para generar titulares sobre resultados de encuestas

Tropecé el otro día con un artículo en el NYT del que reproduzco (incluido el enlace) un párrafo:

Only 23 percent of respondents would now vote for the Popular Party, according to a telephone survey by Metroscopia, a pollster, and published by El País this month. That is near the lowest level since Mr. Rajoy came to power in November 2011. Meanwhile, 86 percent of those surveyed said that they did not trust Mr. Rajoy. The survey was based on interviews with 1,000 adults and has a margin of sampling error of plus or minus 3 percentage points.

La EPA, en Materia (y otros medios)

Ha salido publicado recientemente un artículo en Materia sobre la EPA. Abunda sobre los temas que traté en una charla anterior. Y agradezco a su autor, Daniel Mediavilla tanto el haberse interesado por el asunto como el mencionarme en el artículo.

El artículo ha sido reproducido en otros medios, como elDiario.es y El Economista.

Puede que el titular (¡ah!, esa manía de los periodistas por el titular) invite a interpretaciones que poco tienen que ver con el contenido y la intención del texto. Es curioso, en ese sentido, leer los comentarios de los lectores de los tres medios en que ha aparecido la noticia. De los que extraigo la siguiente conclusión: ¡qué dura va a ser la campaña contra el anumerismo!

Las V Jornadas de Usuarios de R, en Zaragoza

Escribo para anunciar públicamente que están en marcha las V Jornadas de Usuarios de R. Se celebrarán este año en Zaragoza, los días 12 y 13 de diciembre.

Todavía no está disponible el programa (que, en cierto modo, es responsabilidad de vosotros: estáis invitados a enviar propuestas de ponencias y talleres). Tenemos un concurso cuyas bases podrían todavía modificarse si un generoso patrocinador asumiese su financiación.

Y eso, que estáis todos invitados a esta nueva edición de las jornadas.

Mi definición de "big data"

No sin descaro, me atrevo a aportar una definición alternativa a eso que llaman big data y que yo traduzco en ocasiones como grandes datos.

No obstante, para comprenderla, considero necesaria una pequeña digresión de dos párrafos —con la que muchos, espero, no aprenderán nada que no traigan ya sabido— sobre los lenguajes de programación declarativos e imperativos.

En los primeros, programar consiste esencialmente en escribir con cierta notación aquello que quieres: la suma de los elementos de un vector, el promedio de los valores de una columna de una tabla, la suma de los saldos de los clientes de Soria, etc. El intérprete se encarga de servirte los resultados en la proverbial bandeja.

Conceptos estadísticos que desaprender: suficiencia

Leí hace unos días en alguna bitácora que el autor, de tener que retirarse una larga temporada a una isla desierta, llevaría consigo un ejemplar de la inferencia estadística de Casella y Berger. Así que me picó la curiosidad, lo bajé de internet y comencé a leerlo por el primer capítulo que me pareció interesante, el sexto, titulado Principles of Data Reduction.

El título es sugerente y da la impresión de que nos enseñará cómo sintetizar conjuntos de datos grandes con unos pocos indicadores. Y comienza por introducir el concepto de suficiencia que, recuerdo, constaba en aquel terrible libro mío de estadística de segundo de carrera. Repasémoslo:

Policía y crimen: algunos números

El 2013-07-05 Eurostat publicó el estudio Trends in crime and criminal justice, 2010.

De él quiero rescatar algunas cifras:

  • España tiene la quinta menor tasa europea de homicidios (al nivel de Holanda y Alemania).
  • La policía española ha registrado en los últimos años menos crímenes que en Italia, bastantes menos que en Francia y la mitad que en Alemania.
  • Tenenos más policías que el RU o Francia, prácticamente los mismos que Alemania y algunos menos que Italia (en términos absolutos). En términos relativos somos, prácticamente, campeones de Europa en policías por habitante: solo nos supera Chipre y aventajamos al resto por goleada.
  • España tiene la mayor población reclusa (en términos relativos, por 100k habitantes) de Europa Occidental. Nos superan algunos países de Europa Oriental pero estamos prácticamente empatados con el RU y nuestra tasa es aproximadamente un 50% mayor que la de Italia, Francia o Alemania.

Que cada cual extraiga sus propias conclusiones. Pero aventuro una de mi cosecha: en España somos capaces de mantener unas cifras de criminalidad bajas gracias a una superestructura represiva más dura —¿y onerosa?— que la de nuestros vecinos del norte.

¿Nos ayudáis a mejorar r-es.org?

R

Hora es cumplida, creo yo, de repensar el portal de la Comunidad R Hispano. Así que he pensado en pulsar el criterio —que estimo sobremanera— de mis visitantes y solicitar de ellos (vía comentario a esta entrada) sugerencias. Por acotar el tema, sugiero que vayan encaminadas a dirimir estas dos cuestiones:

  1. ¿Cuál debería ser el objetivo de un portal de esas características?
  2. ¿Cómo debería organizarse para alcanzar mejor esos objetivos?

Y como colofón, ¿conocéis algún modelo aplicable y que funcione?

pqR: un R más rápido

Hace no mucho, Radford Neal publicó pqR, una versión de R más rápida. Y algunos os preguntaréis qué es y de dónde salió esa reimplementación.

La respuesta breve es la siguiente: no hace tanto, cuando R iba por la versión 2.13, Neal sugirió una serie de modificaciones (patches) para mejorar el rendimiento de R en algunos aspectos. Creo recordar que eran catorce, aunque bien pudo haber habido otros posteriores. Los desarrolladores de R, sin embargo, rechazaron algunos (si no todos) de ellos por motivos de diversa índole pero que se resumen en lo siguiente: