260GB… ¿es «big data»?

Un excompañero me contaba ayer que asistió a las jornadas Big Data Spain 2012 y le sorprendió lo pequeños que le resultaban los conjuntos de datos de los que se hablaba. En su trabajo existen (me consta) tablas de 1TB y nunca ha oído a nadie hablar de big data.

En particular, hablaba de un caso de negocio en el que se trataba un conjunto de datos de 260GB. Y las preguntas que lanzo a mis lectores son:

  • ¿Consideráis que 260GB es big data?
  • ¿Cuál es el conjunto de datos más grande con el que habéis trabajado (en cuestiones que tengan algo de analítico, claro)?

10 comentarios sobre “260GB… ¿es «big data»?

  1. ffernandez 21 noviembre, 2012 11:53

    Todo depende de lo que vayas a hacer con el conjunto de datos. Si tu «cuestión analítica» es hacer medias, varianzas no es big data, nada que no puedas hacer con un SAS o un ORACLE (Insertar aquí alternativas open source) en una máquina mediana. Si esos 260 GB representan una matriz sobre la que quieres aplicar alguna factorización tipo SVD entonces es big data. Si tus datos representan un grafo sobre el que quieres ejecutar algún algoritmo de detección de comunidades, caminos más cortos, etc. entonces también es big data. También depende de con qué frecuencia tengo yo que manejar esos 260GB. Es habitual en las empresas que exista un «proceso mensual» que agrega determinada información para evaluar cierta cantidad de modelos. Esta ejecución mensual suele ser más una limitación técnica que una decisión de negocio. Si uno quiere llevar esa ejecución a una frecuencia diaria o incluso menor entonces puedes necesitar alguna de las tecnologías que se usan en «big data». Si esos 260gb representan 1 hora de información (habitual en determinadas aplicaciones relacionadas con internet) y con tus máquinas habituales tardas más de 1 hora en procesarla, entonces es big data…
    Personalmente he trabajado con datasets de algo más de 1TB como punto de partida (datos que luego se han agregado) y he tenido la oportunidad de factorizar matrices de 1,5M filas x 150k columnas. Para tareas de reporting algunos compañeros han desarrollado herramientas que procesaban 4TB diarios sin despeinarse…
    Intuyo también que lo que se mostraba en bigdataspain solo es «lo que se puede contar» del trabajo que hacen estas personas.

  2. Pedro 21 noviembre, 2012 11:59

    Carlos, define si son 260GB de objeto R, de datos en csv, de datos o contenido p.ej. imágenes, y no digamos vídeo…

  3. Ruben Martinez 21 noviembre, 2012 17:06

    hola Carlos,
    Como parte de la organización y program chairman de la conferencia que mencionas quizás pueda aportar algo a tu pregunta y a los comentarios.
    Vaya por delante que soy consciente de que «Big Data» es un término de moda y sin definición formal. Ni siquiera es una novedad en el sentido de que engloba áreas desde el data mining al análisis estadístico y visualización. Sin embargo, Big Data es un concepto útil para explicar que la evolución reciente infraestructura y software están permitiendo actividades y negocios impensables hace sólo unos años.
    El volumen por sí solo no define Big Data, sea cual sea su orden de magnitud. La definión de Big Data depende de variables como el volumen de los datos, su origen y formatos -frecuentemente heterogéneos-, la velocidad y tipos de procesamientos todo ello con una variable transversal de tiempo. Si por GB o TB fuera, se podría decir que un humilde ordenador personal sí puede contener suficientes datos para hacer Big Data. Lo que un PC no puede es almacenar, distribuir y analizar en tiempo real datos que necesiten mucho procesamiento para extraer valor de ellos.
    Personalmente yo creo que no es la tecnología lo que Big Data. Lo definen las personas y, dentro de ellas, las que se hacen preguntas cuyas respuestas no se obtengan sólo con una query de MySQL contra una tabla por poner un ejemplo. Si lo que ahora llamamos Big Data dentro de 3 años se da en llamar, qué se yo, economía de los datos por ejemplo, pues estupendo ¿no?

  4. juan elvira 22 noviembre, 2012 1:33

    El tamaño importa, eso está claro :). Sin embargo no es todo cuestión de tamaño. Ffernandez, y Ruben planteaban otros aspectos como la hetereogeneidad de las fuentes, posibles restricciones de tiempo real, etc… Las famosillas tres «V», variety, velocity and volume. Por tanto en mi opinión incluso el análisis de 1 TB, por decir algo, podría no tener ni siquiera la consideraciónd de big data, dependerá de si la información está estructurada o no, de si tengo restricciones de tiempo, de cómo de rápido las fuentes generan nuevos datos, etc…En cualquier caso interesante pregunta Carlos

    un saludo
    Juan

  5. Daniel 22 noviembre, 2012 10:40

    O sea, al Data Mining y a la Gestión de Bases de Datos de toda la vida se le añaden algunas tecnologías nuevas y se le da el bonito nombre de Big Data.

    Fantástico!!! Se agradece un poco de Marketing y que se valore más nuestra profesión.

    Bienvenido sea!!!

  6. Freddy 22 noviembre, 2012 14:40

    _¿Consideráis que 260GB es big data?_

    Sí, considero que es.

    _¿Cuál es el conjunto de datos más grande con el que habéis trabajado (en cuestiones que tengan algo de analítico, claro)?_

    No tanto como lo que mencionan aquí, pero difícilmente he cargado más allá de lo que puede cargar un ordenador convencional. Así tenga 1 tera de datos, solo tomo muestras bajo esquemas que intenten emular el enorme conjunto y así analizo una y otra vez; así que en mi caso particular no es que me afecte mucho si son o no son cientos de gigas. Digo yo.

    Salud.

  7. rvaquerizo 22 noviembre, 2012 16:47

    Por polemizar, pero con mucha razón: Reinventamos la rueda, la ponemos otro nombre y «e voilá».

  8. datanalytics 22 noviembre, 2012 17:52

    @Pedro No sé… fue alguien que me dijo que otro lo había dicho. ¡A saber!

  9. datanalytics 22 noviembre, 2012 18:14

    @Ruben Martinez Gracias por la respuesta. Como sabrás no estuve en la conferencia. Y solo porque coincidía con las jornadas de R. Si no, me habría acercado.

    Tienes razón: el volumen es solo una de las dimensiones a tener en cuenta. Desde el estudio del archiconocido conjunto de datos iris (150 filas, 5 columnas) hasta lo que esté haciendo Google existen varios saltos cualitativos muy importantes.

    El otro día, yo mismo, con 100.000 filas no pude hacer un análisis (relativamente complejo) que quería y me tuve que contentar con realizarlo sobre una muestra. Una vez tuve que dejar un análisis sobre un conjunto de datos de 5GB por imposible (tampoco estaba obligado a hacerlo, era puro jobi, y no le presté tanta atención como pudiera).

    Pero sentí curiosidad por saber si habría alguien ahí afuera haciendo cosas interesantes (más allá de contar y sumar) con entornos donde los volúmenes de datos estén mucho más allá de esos 260GB que, tal vez, hoy en día, no nos parezcan ya tan descomunales.

Los comentarios están desabilitados.