Un récord personal

El otro día, casi por error, cargué este dataframe en R:

> dim(raw) 
[1] 115318140         4  

Es todo un récord personal logrado en un servidor con 24GB de RAM bastante caro.

El anterior estaba en otro de algo así como 20 millones de filas y unas 6 o siete columnas. Eso sí, logrado en tiramisu, mi ordenador personal de 8GB de RAM de 400 euros (monitor incluido).

Os preguntaréis si pude hacer algo con ese monstruo. La verdad es que sí: pude muestrear un 10% de las filas y trabajar con ellas sin problemas.

¿Qué lectura puede hacerse de este hito? Pues que los ordenadores de 24, 64 y más GB de RAM comienzan a estar al alcance de manos tan humildes como las mías. Con esos bichos será posible atacar y resolver problemas en memoria (¿no es preferible a hacerlo con datos vaya-vd-a-saber-dónde?) expandiendo el ámbito de lo que llamo datos semigrandes (o semi-big data) y de lo resoluble con R (antaño considerado tan estrecho).

6 comentarios sobre “Un récord personal

  1. Otto F. Wagner 7 noviembre, 2013 16:13

    Ojalá llegue el día en que R pueda gestionar datas tan grandes como SAS, de momento para big data las empresas seguirán usando otros softwares 🙁

  2. José Luis 11 noviembre, 2013 10:51

    Últimamente se habla mucho de Hadoop y de su integración con R. ¿Alguna experiencia?

  3. datanalytics 11 noviembre, 2013 19:56

    @José Luis Pues alguna. Por eso (por haber estado adquiriéndola) ha bajado mi frecuencia de publicación por aquí. Pero debería ir sacando cosas pronto sobre el tema. Aparte del taller de las V Jornadas y alguna otra cosa que voy a hacer en el corto-medio plazo.

  4. José Luis 11 noviembre, 2013 23:08

    @datanalytics
    No sabía que había un taller de estos temas en las jornadas. Estupendo!! Me apunto.

  5. Otto F. Wagner 12 noviembre, 2013 18:55

    Mmm a ese taller me apunto!!

  6. Otto F. Wagner 12 noviembre, 2013 18:58

    Sabéis de algún instalador de Hadoop en win7?

Los comentarios están desabilitados.