¿Un torpedo bajo la línea de flotación de SAS?

Revolution Analytics ha disparado un torpedo apuntando bajo la línea de flotación de SAS. Se trata del SAS to R challenge, una muy inteligente campaña de publicidad por la que se compromete a reescribir en R gratuitamente código SAS de clientes potenciales si el primero es más eficaz que el segundo.

Más allá de lo que la campaña parece ser, se esconde lo que realmente es: la constatación de que el premio gordo en el mundo de análisis empresarial es la actual base instalada de SAS y de que Revolution va a por todas.

¿Cómo espera Revolution Analytics desbancar a SAS? Utilizando su nueva extensión propietaria RevoScaleR, un paquete de R diseñado para afrontar los retos que supone el análisis de los conjuntos de datos grandes que manejan típicamente las organizaciones. Los lectores de esta bitácora, con la ayuda de Google o Blekko serán capaces de encontrar por sí mismos la típica información comercial (vídeos, folletos, etc.) acerca del producto.

Sin embargo, destacaré aquí dos de los aspectos técnicos RevoScaleR que han transcendido:

  • Utiliza un formato propietario de almacenamiento de datos, XDF (¿estará emparentado con éste?), diseñado para permitir un acceso rápido a filas y columnas de los datos (y sin necesidad de volcar su contenido en la memoria).
  • Contiene reimplementaciones de diversos algoritmos habituales en estadística y minería de datos que no necesitan disponer de la totalidad de los datos en memoria (supongo que al estilo de biglm)

Puede encontrarse una discusión técnica (de uso, no de arquitectura) en este artículo. Además, los interesados en aprender más sobre nuevos paradigmas de almacenamiento de datos que combinan las ventajas de los sistemas de almacenamiento por filas (como casi todos los RDBMs) y columnas (como R), encontrarán, seguro, de interés este enlace.