Captura de datos, MediaLab Prado y NeedleBase

Ya he hablado en ocasiones anteriores en este foro de MediaLab Prado. Y también de los talleres que está realizando sobre periodismo de datos.

El día 12 de enero —y a ver qué invento para poder acudir— habrá una sesión sobre captura de datos uno de cuyos talleres tratará sobre scrapping usando NeedleBase.

Anoche vi el siguiente vídeo sobre esta herramienta,



y quedé impactado sobre las cosas que puede llegar a hacer.

¿Qué os parece la herramienta? ¿Nos veremos el día 12?

6 comentarios sobre “Captura de datos, MediaLab Prado y NeedleBase

  1. jjgibaja 30 diciembre, 2011 9:07

    Impresionado me he quedado. No podré ir (porque me toca trabajar el día 12) pero espero tus comentarios al respecto.

  2. Otto Wagner 30 diciembre, 2011 10:19

    Argh yo tampoco puedo pero el tema me interesa!! Carlos pls si vas luego cuelga la info!!

    Saludos y FELIZ 2012!!

  3. Neregauzak 30 diciembre, 2011 10:38

    Yo lo probé hace unas semanas, y de momento lo tengo aparcado. No por Needlebase en sí, sino porque o bien las fuentes de las que quería recoger datos negaban el acceso al robot de NeedleBase, o bien porque los datos que me interesaban estaban tan desestructurados en el código fuente que no había forma de domeñarlos.

    Por no hablar del problema inherente a las técnicas de scrapping, a saber, si la fuente cambia su forma de codificar la información hay que volver a modificar la herramienta de scrapping.

    En cualquier caso, la charla que comentas me parece muy interesante (lo mismo consigue volver a animarme). Como entiendo que será en Madrid, y no podré asistir, ¿sabes si va a haber difusión por streaming o similar?

    Saludos

  4. datanalytics 30 diciembre, 2011 16:28

    @Neregauzak Bueno, la información sobre si habrá o no «streaming» debería aparecer en la página de MediaLab Prado. Yo no pertenezco a la organización.

    Sobre el «scraping» en sí, he visto otras herramientas más «libres»: p.e., puede hacerse desde python usando «scrapy» de manera programática. Pero, efectivamente, es un problema el de la modificación de la estructura de los datos en origen.

  5. Neregauzak 25 enero, 2012 8:54

    Acabo de recibir este mensaje de Google NeedleBase hace unas horas :o(

    *************
    Dear Subscriber,

    We’ve been hard at work planning how to best integrate Needlebase’s technology with Google’s portfolio, which includes structured-data initiatives like Fusion Tables, Google Refine, Public Data Explorer, and Freebase. As we focus on our next steps, needlebase.com will be retired on June 1. To ensure our community of users has time to export any needed data, the service will remain fully operational until then.

    We’re looking forward to sharing future product developments as soon as we can. On behalf of the Needlebase team, thank you for all your feedback and support.

    Justin Boyan
    Needlebase lead, Google
    ***********

Los comentarios están desabilitados.