Errores de las encuestas electorales en Cataluña: una hipótesis sugerente

Pedro Concejero sugirió ayer en la reunión del grupo de usuarios de R de Madrid una hipótesis muy sugerente para explicar parte del error cometido por las encuestas electorales publicadas en Cataluña. Voy a elaborarla en esta entrada pero subrayando antes de todo que desconozco el detalle del funcionamiento de recogida de datos y que lo que voy a contar aquí no pasa de ser una hipótesis que correspondería a otros tratar de verificar.

¿... coma cero dos por ciento? ¡Anda ya!

Hoy hablo en la reunión del grupo de usuarios de R de Madrid. Voy a reciclar la charla que di en las IV Jornadas de Usuarios de R sobre mi paquete MicroDatosEs y voy a aprovechar para criticar, en mi estilo, enunciados como

El número de parados crece en 85.000 personas y alcanza la cifra de 5.778.100. La tasa de paro se incrementa 38 centésimas hasta el 25,02%.

que pueden encontrarse en la nota de prensa del INE que resume los resultados de la última encuesta de población activa, la del tercer trimestre de 2012.

Las ocho peores técnicas analíticas

La noticia es vieja y posiblemente conocida de muchos. Además, procede de esta otra bitácora. Pero no está de más dejar constancia de ella aquí.

Estas ocho técnicas son:

  • La regresión lineal
  • Los árboles de decisión tradicionales (yo los uso mucho, sin embargo, como herramienta descriptiva)
  • El análisis discriminante lineal
  • Las k-medias para construir clústers (véase esto)
  • Las redes neuronales (por su difícil interpretación, inestabilidad y su tendencia al sobreajuste)
  • La estimación por máxima verosimilitud, particularmente cuando la dimensionalidad del problema es elevada
  • Naive Bayes (véase esto)

260GB... ¿es "big data"?

Un excompañero me contaba ayer que asistió a las jornadas Big Data Spain 2012 y le sorprendió lo pequeños que le resultaban los conjuntos de datos de los que se hablaba. En su trabajo existen (me consta) tablas de 1TB y nunca ha oído a nadie hablar de big data.

En particular, hablaba de un caso de negocio en el que se trataba un conjunto de datos de 260GB. Y las preguntas que lanzo a mis lectores son:

Presentación del libro "Six Sigma with R"

El martes 20 de noviembre, a las 17:00h, tendrá lugar la presentación del libro Six Sigma with R: Statistical Engineering for Process Improvement" en la sala Juan Béjar de la E.U. de Estadística de la U. Complutense por parte de Emilio López Cano.

Existe además un paquete de R, SixSigma, desarrollado por los autores y disponible en CRAN.

El mundo del control de la calidad (en ingeniería) está dominado por software propietario, particularmente, Minitab. Esperemos que este libro ayude a que el uso de R se incremente en ese ámbito ya no tanto por la segunda de las razones que David Ríos indica en el prefacio, esto es, que R es gratis, sino por la primera: que R es robusto, riguroso y eficiente.

Capicúa

Capicúa es una de las trescientas cincuenta y pico palabras españolas que tienen su origen en el idioma catalán. Significa _cabeza _y cola. Y viene muy bien para etiquetar las dos entradas que, con esta, he realizado sobre las elecciones en Cataluña.

La que hice en su día, la cola, criticaba los métodos y ponía en cuestión los resultados de una encuesta electoral realizada por El Periódico (para más información, véase este enlace). Tal vez no sea casualidad que el software usado por los analistas en este caso sea SPSS.

Anumerismo en los medios (y seudoperiodismo de datos)

El otro día asistí a un congreso sobre big data, datos públicos, periodismo de datos y ese tipo de cosas. Cuando el panel de periodistas de datos comenzó la rueda de preguntas, estuve por levantar la mano y formular la mía en términos, más o menos, como estos:

El periodismo de datos no es algo nuevo. Existen áreas en las que los datos han sido abundantes (incluso en tiempo real) y que llevan siendo cubiertos por la prensa desde hace décadas. Me refiero al sector económico y financiero. Sin embargo, la prensa ha mostrado una capacidad muy pobre para proporcionar análisis y contexto en este ámbito. ¿Qué garantías pueden ofrecernos los nuevos periodistas de datos acerca de su habilidad para para ofrecer análisis sugerentes y profundos en los nuevos ámbitos que se abren en la profesión?