Mis respuestas en una entrevista sobre "big data", periodismo de datos, etc.

Aunque no hay una definición exacta sobre la minería de datos… ¿cómo definiría usted Big Data?¿Qué herramientas utiliza usted para la búsqueda de datos? (públicas o privadas)

Dicen los marxistas –aunque el concepto es anterior– que un cambio cuantitativo, a partir de cierto umbral, desencadena un cambio cualitativo. Las empresas, las instituciones públicas, etc. siempre han almacenado y estudiado estadísticamente datos a nivel de subsidiaria, departamento, provincia, oficina, región, producto, etc. Solo recientemente han visto que es técnicamente posible estudiar sus datos a nivel de individuo (ciudadano, cliente, etc.). Eso ha implicado que el tamaño de los conjuntos de datos han crecido (ahí el cambio cuantitativo) en varios órdenes de magnitud (¿tres? ¿cuatro?). El cambio cualitativo concomitante es lo que llamamos big data.

Ya no existen clases sociales, segmentos de clientes, regiones, etc. Existen individuos. Cada individuo tiene unas necesidades específicas. Diseñar una experiencia a la medida de cada individuo exige el desarrollo de técnicas (estadísticas, informáticas, etc.) nuevas.

De hecho, incluso en medicina, se habla de que no existen enfermedades sino enfermos. Ya no se trata de vencer al cáncer sino de vencer al tipo de cáncer que tiene un individuo concreto. Las peculiariades genéticas de un determinado individuo hace que el remedio más adecuado para el cáncer que padece sean específicas y distintas de las de otro con un perfil genético distinto.

Por eso no me gusta definir big data en términos de herramientas o técnicas (que irán apareciendo y desapareciendo) sino de esa evolución hacia modelos personalizados de gestión, de márketing, de medicina, etc.

¿Son los usuarios realmente conscientes de a dónde van sus datos?

En absoluto. No lo saben ni los despreocupados ni los paranoicos. Todos yerran por defecto o por exceso. Ni hay un big brother ni se puede colgar cualquier cosa en cualquier sitio.

Creo que evolucionamos hacia un modelo de aldea o ciudad pequeña y que se perderá la anonimidad que disfrutamos (o padecemos) en las grandes ciudades. Pero pueblos y ciudades pequeñas existen y en ellas viven personas felices. Y que, además, son capaces de controlar qué muestran a sus convecinos y qué mantienen en su ámbito privado.

Nos acostumbraremos.

¿Es una revolución silenciosa? En grandes casos como Netflix ya se sabe que la tecnología Big Data les ha sido muy útil para mejorar sus recomendaciones, pero ¿y el resto de las empresas?

Menos de lo que dan a entender. Me hacen gracia en ocasiones comentarios que leo por aquí y por allá del éxito de iniciativas big data que se han implementado en sitios. Yo siempre les pregunto: ¿sabéis cuáles de vuestros clientes (de la base de datos) están muertos? La verdad es que muy pocas empresas lo saben; o pueden estar seguras a ciencia cierta si uno de ellos está vivo o muerto (a no ser, claro está, que sean de esa minoría que ha operado recientemente). Y si no saben esa cosa tan básica,…

Empresas como Google, Facebook, Amazon, Apple… son empresas aventajadas en este tema, en un futuro ¿todas las empresas seguirán este modelo? ¿tienen realmente una ventaja sobre el resto?

¿Todas las empresas? ¿Incluido el café de la esquina? No, claro que no. Disponer de datos abundantes sobre gente es una ventaja competitiva. Pero, ¿es la única? Mi banco tiene una oficina cerca de mi casa en la que puedo hablar con una persona que me concoce, conoce mi negocio y con la que puedo hablar sobre préstamos, hipotecas, etc. Es algo que yo no puedo hacer con Google. Google no tiene una oficina cerca. Mi banco tiene una ventaja competitiva con respecto a Google: esa cercanía.

Me hace gracia que los bancos quieran ser Google. Y odio que, por el camino, dilapiden esa ventaja competitiva que tienen con respecto a esos competidores big data.

Habrá mercados en los que esos operadores puedan hacer valer su ventaja; pero existirán muchos otros en los que no.

Los modelos de periodismo de datos como el New York Times o The Guardian funcionan perfectamente, ¿son casos aislados o realmente se puede llegar a implantar el mismo modelo en todo el mundo?

Eh… ¿perfectamente? The Guardian no deja de perder dinero. Además, no son los únicos ejemplos. The Economist hace algo parecido al periodismo de datos desde siempre; cuando comencé a leerlo hace más de 20 años me sorprendió cómo siempre trataba de argumentar alrededor de evidencia cuantitativa.

La prensa económica ha dispuesto también y desde siempre de datos (frecuentes, abundantes, en tiempo casi real, etc.). Y no sé si le va demasiado bien. O si ha sabido estar a la altura de la promesa que parece que hace el nuevo periodismo de datos.

Otro área del periodismo que ha contado desde siempre con datos frecuentes, masivos, etc. es el deportivo. Pero no sé si es ejemplo de nada.

¿La prensa actualmente tiene que valerse de números, mapas o de las matemáticas para analizar datos y descubrir hechos?

La prensa tiene que ajustarse a la realidad. Me aburre la prensa que trata de acercarse a los fenómenos a través de los ojos que hubiera tenido Marx, Hayek, Olof Palme o Simone de Beauvoir. ¡Qué más da! Esos señores están todos muertos y enterrados.

Las cosas suceden en un sitio (mapas) y están asociadas a magnitudes (números) que pueden y deben compararse con otros sucedidos en otros tiempos (series temporales) o lugares (mapas, de nuevo). Muchos aspectos relevantes de la realidad pueden cuantificarse y medirse (¿para qué existe, p.e., el INE?). Argumentar basándose en evidencias y hechos significa tener que sumergirse en un mundo en el que, sí, evidentemente, las matemáticas tienen un lugar.

Dicho lo cual, todavía se ven artículos en prensa que analizan fenómenos argumentando alrededor de la etimología del nombre que les damos… ¡vaya pérdida de tiempo!

¿Son las RRSS la mejor fuente de datos? Hoy en día si quieres saber dónde está una persona, que hace o con quien, solo necesitas abrir Facebook. ¿Esto supone un “peligro”?

Hummmm… ¿cualquier persona? Discrepo. De ciertas personas, tal vez.

¿La mejor fuente de datos? ¿Publicas en tu timeline el saldo de tu cuenta corriente? Eso lo sabe tu banco, no Facebook. ¿Sabe Facebook lo que compras? Tampoco. Muchas compañías tienen pedazos de información sobre ti. Pero nadie tiene el perfil completo.

En 2002 se empezaron a almacenar más datos digitales que analógicos ¿es una moda o una revolución?

Ni moda ni revolución: es una evolucion. Una moda pasa. Pero, ¿volveremos a almacenar la información en libretas de papel? ¿A escribir cartas en folios? No.

Y revolución… ¡ninguna dura 13 años! De hecho, tengo la sensación de que el ritmo de cambio tecnológico está muy lejos de ser lo que fue. La generación de mis abuelos pasó de la burra al avión; de la carta al teléfono. La nuestra, sin embargo, conoció los ordenadores ya desde siempre; en realidad, los teléfonos de hoy en día, en la práctica, solo pueden hacer unas cosas más que los que ya teníamos en casa cuando nacimos, etc. ¡Y seguimos sin tener coches voladores!