Sobre los límites de la minería de datos

Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color.

Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza.

Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto.

Un MOOC P2P

Cito de la Wikipedia:

  • MOOC (Massive Online Open Courses) o Cursos Abiertos Online y Masivos: son un método de formación a distancia planificado para alcanzar un elevado volumen de usuarios gracias a su carácter abierto, participativo, y con una metodología basada en el conocimiento gratuito.
  • P2P: una red de computadoras en la que todos o algunos aspectos funcionan sin clientes ni servidores fijos, sino una serie de nodos que se comportan como iguales entre sí.

IPC de noviembre: al menos, una buena noticia

Se ha hablado mucho del dato del IPC de noviembre. En parte porque, se ve, es el usado para calcular la revalorización de las pensiones. Al parecer, el dato ha sido algo anómalo. Y tanto que ha conseguido algo inusitado: poner de acuerdo a la prensa de izquierdas con la de derechas. Dizque el gobierno ha orquestado una transferencia de renta de quienes reciben pensiones hacia quienes las financiamos (algo que, por otra parte, a nadie he visto subrayar: ¡como si el gobierno pagase las pensiones de su bolsillo!).

Infografía sobre Big Data Spain

Rubén Martínez, viejo conocido (fue instrumental en la organización del concurso de análisis de datos de las III Jornadas de Usuarios de R) me ha hecho llegar la siguiente infografía sobre el estado del mundo de los grandes datos (big data) y, en particular, sobre las conferencias Big Data Spain en cuya organización colaboró. Es la siguiente (hay que hacer clic en ella para verla en tamaño completo):

Esperemos que el año que viene no coincida con las jornadas de R y podamos compatibilizar ambas…

Prueba R, gentileza de code school.com

R

¿Has oído hablar de R y quieres probarlo? ¿Sabes de alguien que esté pensando en hacer sus pinitos con él y que no sepa por dónde empezar?

Codeschool.com (en colaboración con O’Reilly) han creado un microcurso, Try R, que permite familiarizarse con lo básico de R sin instalar nada, desde el navegador.

¿Quieres probar R? No tienes excusa.

El (escaso) beneficio marginal de trabajar

Ayer hablé con un tipo. Es ingenerio superior, con quince años de experiencia y… desempleado desde hace unos meses. Me contaba que le habían ofrecido un trabajo (en condiciones, además, sorprendentemente más beneficiosas de lo que se ve por ahí en estos días). Pero que, me contaba, el beneficio marginal para aceptarlo (que conllevaría renunciar a la prestación por desempleo, etc.) le resultaba insuficiente. Mejor seguir desempleado.

Y él sin producir, el estado teniendo que abonarle la prestación y la empresa teniendo que seguir rebuscando entre currículos. Todo carga muerta social. ¿Es este nuestro sino? ¿O pueden plantearse alternativas inteligentes en las que, sin que nadie resulte perjudicado, se reduzca el coste social a las que dan lugar este tipo de coyunturas?

Solo el 5% ganan dinero con el "análisis técnico"

Hojeando la prensa francesa di con este pequeño artículo en Les Echos, Pourquoi les particuliers sont perdants sur les devises. Remite a un artículo reciente, Is Technical Analysis Profitable for Individual Currency Traders? inasequible para quienes creemos que los 45 dólares que cuesta descargarlo tienen mejor empleo en otra parte (es curioso: en muchos otros ámbitos académicos es fácil conseguir los artículos gratis; en finanzas, casi imposible).

¿El resumen? Que prácticamente nadie gana dinero usando el llamado análisis técnico. E incluso podría argumentarse que ese 5% podrían no ser sino el sesgo de supervivencia.

Más sobre variaciones insignificantes en estadísticas públicas

Hemos talado cantidad de montes y destruido el ecosistema de miles de ardillas para fabricar el papel sobre el que discutir asuntos totalmente irrelevantes. Hablé un poco de eso hace unos días y más en ocasiones anteriores, como esta y alguna más que me da pereza ubicar.

Ahora leo en Significance cómo protesta Mark Fransham:

La BBC informó la semana pasada que “el número de desempleados descendió en 50.000 hasta los 2,53 millones en el trimestre anterior”. Me pareció un cambio pequeño en una estimación procedente de una encuesta. Así que, preguntándome por la significancia estadística, consulté la página de la Oficina Nacional de Estadística, (ONS). Que, de hecho, decía: “hay 2,53 millones de desempleados, 50.000 menos desde marzo a mayo de 2012 y desde la año anterior”.