|
Archivo
Archivo del autor
De tarde en tarde aparece el estudio de turno sobre lo rápido que crece la cantidad de información almacenada.
El kilobit, el megabit, el gigabit. ¡Qué lejos quedan! ¡Qué pequeños!. El presente, es el Terabit aunque su reino ya se ve amenazado con un nuevo protagonista, el Exobit, ya ni el Petabit aparece. Y cuidado, que el Zettabit ya asoma.
 Ceros y más ceros. (Cortesía de Wikipedia).
Este nuevo estudio pone algunas cosas en su sitio y por suerte contamos con referencias humanas para hacernos una idea de lo que representa tanto cero.
Las comparaciones durarán un suspiro, y lo que ahora nos asombra, en unos años (¿meses?) nos parecerán números de otra época, de otros siglos.
Aunque no está mal hacer un breve repaso, detalles como el que se ofrece en este estudio no son muy habituales. Por eso se habrá publicado, digo yo:
- La humanidad es capaz de almacenar 295 exabytes de información (ya van 20 ceros). Muchos ceros, aunque no llegan a representar ni el 1% de la información almacenada en todas las moléculas de ADN del ser humano.
- El año 2002 puede considerarse el principio de la edad digital, el primer año en el que la capacidad de almacenamiento digital alcanzó la capacidad analógica. En el 2007, el 94% de nuestra memoria está en forma digital.
- En 2007, la humanidad difundió 1.9 zettabytes de información en formato TV o GPS. El equivalente a que cada persona del mundo leyera 174 periódicos cada día.
- En las tecnologías de telecomunicaciones, como la de los teléfonos móviles, la humanidad intercambia 65 exabytes (2007). Equivale a que cada persona del mundo transmitiera el contenido de seis periódicos cada día.
- En 2007, los ordenadores de propósito general, llevaron a cabo 6.4×10^18 instrucciones por segundo, en el mismo orden de magnitud al número de impulsos nerviosos ejecutados por un cerebro humano.
Cuánto cero, para lo poco que a veces parece que hemos avanzado.
Data-Mining, Business Intelligence, Business Analytics, Social Network Analytics y ahora “Games Analytics”.
 Ilustrativas las google-trends...
Si curiosas son las tendencias, más aún son la procedencia de la mayoría de las búsquedas ahí representadas.
Y no es para menos, el mundo del ocio online está moviendo auténticas fortunas. Millones de usuarios parcial o constantemente conectados están haciendo crecer imperios que poco a poco salen de los ambientes frikies para captar la atención de las empresas y de los ávidos inversores.
Y no es para menos:
A la sombra de estas máquinas de recaudación, como no, han comenzado a aparecer igualmente las empresas que esperan estrujar aún más estas copiosas ganancias de este negocio tan lucrativo. La primera que he visto:
 Games Analytics
Siempre interesante eso de “Key People“…
Es interesante el detalle que se incluye sobre R en el informe periódico de Gatner (su “Magic Quadrant“) sobre herramientas de BI (Business Intelligence).
 Gatner - The Magic Quadrant
Aunque no es directamente sobre R, sino a través de “Revolution Analytics“, la empresa que ha construido alrededor de R un conjunto de soluciones que la están permitiendo entrar en el ámbito empresarial como un competidor directo al resto de soluciones BI.
Revolution Analytics (founded in 2007 as Revolution Computing and re-launched in May 2010 as Revolution Analytics) has defined a product road map to make open source capabilities for statistical analysis, based on the R programming language and runtime engine, more scalable and accessible to business analysts. Industry veterans in statistical software such as Norman Nie (one of the founders of SPSS) and Robert Gentleman (co-developer of R) lead the company. The company has created add-on components for the R runtime engine to exploit low-cost multicore and multhreaded processing power to speed up the analysis of very large datasets. The company is also working on adding a much-needed graphical user interface to the R engine, which should be delivered in the middle of 2011. Partnerships with other open source vendors such as Jaspersoft and Cloudera will help raise awareness of Revolution Analytics in the market, but the company will face strong competition from incumbent commercial vendors of statistical analysis products and services such as IBM and SAS.
De cumplirse, esa última barrera para la adopción masiva del R (la existencia de un interfaz gráfico amigable) habrá caído. Si y solo si, el interfaz se libera a la comunidad.
A principios de este mes, se celebró en Santa Clara (California) la primera conferencia “Strata. Making Data Work“. De nuevo, de la mano del hiperactivo Tim O’Reilly.
 Strata. Making Data Work.
La razón de ser de esta conferencia, no puede estar más alineada al objetivo de este foro:
Big Data is here, and it changes everything. From startups to the Fortune 500, smart companies are betting on data-driven insight. Get control of the new data opportunity at Strata—immerse yourself in three full days of hands-on training, information-rich sessions, and a sponsor pavilion filled with the key players and products. This new O’Reilly conference brings together the people, tools, and technologies you need to make data work.
Afortunadamente, el material utilizado en las conferencias: presentaciones y videos, está disponible. Mucho y muy bueno. De algunas que he podido ver, no os perdáis la de “Kaggle.com” (Making Data Science a Sport) o la de Google (Google Cloud for Data Crunchers).
La siguiente en septiembre.
Supongamos, no obstante, que se pude desarrollar un algoritmo bancario con un 99 por ciento de precisión. Supongamos que en el Reino Unido hay 500 terroristas. El algoritmo identificaría correctamente a 495 de ellos, el 99 por ciento. Pero en el Reino Unido hay aproximadamente 50 millones de adultos que no tienen nada que ver con el terrorismo, y el algoritmo también identificaría erróneamente al 1 por ciento de todos ellos, es decir, 500.000 personas. Al final de las cuentas, este maravilloso algoritmo con un 99 por ciento de precisión daría demasiados falsos positivos: medio millón de personas que se indignarían con razón cuando fueran detenidas por las autoridades por sospechosas de terrorismo.
Este es uno de los primeros párrafos de un capítulo del libro ya comentado en esta tribuna (SuperFreakonomics) en el que trata de un algoritmo de minería de datos para determinar qué personas pueden ser terroristas. El pequeño relato se centra en una figura anónima “Mr Horsley” autor de este algoritmo que después de los atentados de Londres (7 julio del 2005) creó este algoritmo y determinó posibles terroristas.
Algunas de sus claves fueron éstas:
Dado que en el Reino Unido estaba luchando contra fundamentalistas islámicos y ya no, por ejemplo, contra independentistas irlandeses, los sospechosos detenidos tenían invariablemente nombres musulmanes. Este iba a ser uno de los marcadores demográficos más importantes para el algoritmo. Una persona sin nombre ni apellido musulmán tenía solo una probabilidad entre 500.000 de ser sospechosa de terrorismo. Para una persona con nombre o apellido musulmán, la probabilidad era una entre 30.000. Pero si tanto el nombre como el apellido eran musulmanes, la probabilidad subía a una entre 2.000.
Los posibles terroristas eran predominantemente hombres, generalmente entre veintiséis y treinta y cinco años de edad. Además, tenían una probabilidad desproporcionada de:
- Poseer un teléfono móvil.
- Ser estudiante.
- Vivir de alquiler y no en una casa propia.
También había algunos indicadores negativos destacados. Los datos demostraban que un posible terrorista tenía poquísimas probabilidades de:
- Tener una cuenta de ahorros.
- Retirar dinero de un cajero automático un viernes por la tarde.
- Contratar un seguro de vida.
Todos estos parámetros, una vez combinados, contribuyeron mucho a crear un algoritmo que pudiera destilar toda la base de datos de clientes de un banco hasta dejar un grupo relativamente pequeño de terroristas en potencia.
Era una red apretada, pero todavía no lo suficiente. Lo que por fin logró que resultara efectiva fue un último parámetro que perfeccionó espectacularmente el algoritmo. En interés de la seguridad nacional, se nos ha pedido que no revelemos los detalles. Lo llamaremos Variable X.
¡Bendita Variable X!.
Buenas noticias para la comunidad de R-ereros.
En el último informe de TIOBE sobre lenguajes de programación R se ha situado en un honroso 25 puesto.
 R escalando posiciones!
Es notable también la noticia de que R está por encima de Matlab y de SAS, que se pierde un gran número de posiciones con respecto a los últimos meses.
Esperemos que en unos meses más, R pueda situarse entre los 20 primeros de la lista. Esos puestos del Olimpo de los lenguajes de programación hasta ahora reservados a los lenguajes de programación general.
¡Ánimo y enhorabuena a todos!
El primer post sobre este tema suscitó cierta expectación y provocó varios comentarios que presuponían una cierta correlación positiva entre el número de desastres y el aumento de población en el planeta. Esta correlación positiva podría aceptarse en principio para dos de los elementos, que son justamente los que más afectados han provocado de forma histórica (las sequías y las inundaciones). La fuerte presión demográfica: tala indiscriminada de árboles, concentración de personas en justamente zonas de altos niveles de precipitaciones, etc. justificaría entonces esta posible relación.
Pero tal y como apuntaba en otro comentario, ¿y el número igualmente creciente de terremotos?. Puede ser como apuntaba otro de los lectores, que pudiera ser que el número de desastres crece como consecuencia del aumento en la capacidad técnica de poder registrarlos. Con el tiempo, son mayor el número de instalaciones, estaciones de medición, con los que hemos ido sembrando la Tierra. Esta idea también tiene sentido, aunque la evolución temporal indica que este crecimiento se sigue produciendo incluso considerando un intervalo de tiempo reciente, y sobre el que se puede suponer un nivel de “monitorización” equivalente (desde los años ’90 hasta ahora).
¿Qué más podemos decir entonces?
Pues son varias sorpresas más las que nos depara un breve análisis de las series temporales. Vayamos por partes.
 Total de desastres naturales contabilizados.
La primera de las sorpresas es esta, y es que el total de desastres naturales contabilizados, alcanzó un máximo alrededor de 2005 y ha comenzado a descender en los últimos años. Algo que contradice totalmente la teoría de correlación positiva con el crecimiento de la población. Atención que se trata del número de desastres reportados, no el total de personas afectadas que podría perfectamente disminuir con el tiempo, como consecuencia de la toma de medidas de prevención.
¿Y de los desastres tecnológicos?
La base de datos internacional de desastres, diferencia los desastres naturales de los desastres tecnológicos, y para éstos tenemos el siguiente comportamiento:
 Total de desastres tecnológicos contabilizados.
Otra nueva sorpresa, los desastres tecnológicos presentan un comportamiento equivalente a los naturales, han ido creciendo de manera acusada desde el comienzo de los ’60 (coincidiendo con la fuerte expansión económica mundial) alcanzando un máximo igualmente en el 2005 (aprox) como en el caso de los naturales. Comenzando a decrecer de forma incluso más acusada que en el caso de los naturales.
¿Cuáles pueden ser las explicaciones de estos curiosos fenómenos?
¿Están los dos acoplados?
¿Entonces en cuanto a desastres (de cualquier tipo) vamos a mejor (y de forma rápida)?
La discusión está servida.
Pocos medios, muy pocos medios en España son los que se han hecho eco de las advertencias de Nicholas Carr. Aunque tarde con respecto a su salida en USA, esta vez con mucha menos distancia que con entregas anteriores del mismo autor, llega a España su libro “Superciales, ¿qué está haciendo Internet con nuestras mentes?“.

La tesis del autor: el constante bombardeo de información en tiempo real, la inmediatez del contenido y del mensaje nos está conduciendo a una pérdida progresiva de nuestra capacidad de concentración. Capacidad que se manifiesta en una creciente dificultad a la hora de lleva a cabo pensamientos profundos, a poder permanecer concentrados manteniendo una lectura atenta de un texto amplio (e.gr. un libro).
En las pocas veces que he tenido oportunidad de hablar de esta tesis, siempre aparece la contra-idea de que no, que Internet es un mundo de posibilidades. Pero esa no es la tesis fundamental en este caso, sí lo es que la constante interacción (la multitarea) nos está perjudicando y parece que sus manifestaciones llegan a lo fisiológico.
El autor es Nicholas Carr, y por si ahora sigue valiendo de algo las credenciales de uno, este Sr. es el que ya hace unos años pronosticó el fin del concepto de IT conocido hasta la fecha (todo hecho en casa), por el nuevo concepto (imparable) de todo en la nube. Además de esta joyita, tiene otras más recientes sobre el poder omnímodo de Google y ahora esta nueva entrega.
 Nicholas Carr
Llama la atención que el origen de esta nueva entrega aparece con este artículo en el que “el culpable” tiene nombre… Seguramente, para él esta revelación fue tan sólo un principio de algo más profundo, que lo es.D
¿Caminamos hacia el desastre? ¿Son cada vez más y mayores los desastres que asolan a nuestra amada Tierra provocados o no por el hombre?
Preguntas que conforme nos acercamos al fatídico (para algunos) 2012 (¿o debiera de ser diciembre de este año 2011?) crecen en número.
¿Cuánto hay de realidad en todo esto?
De forma casual dí con esta curiosa base de datos:
“The International Disaster Database”
Curiosa la iniciativa, pero más aún es el análisis que de forma libre uno (como “data scientist”) puede realizar descargándose el correspondiente csv y analizando con cierta profundidad lo que aquí se nos ofrece. Vayamos a por ello.
El número total de afectados (el logaritmo) por diferentes tipos de desastres y por año, por si el volumen total ya nos diera alguna pauta, es este:
 Total de afectados por diferentes tipos de desastres.
Y como los buenos de la EM-DAT nos han permitido desglosar los tipos de desastres, podemos ver cual es el driver de esta interesante tendencia:
   
Efectivamente, las inundaciones y las sequías (“Flood”, “Drought”) son los principales responsables del fuerte crecimiento en el número de afectados en el tiempo. De una forma más detallada:
 Inundaciones
 Sequías
A la vista de estas tendencias, uno puede albergar un mínimo margen de duda sobre el acusado crecimiento en tiempos recientes. Al margen quedan en este momento establecer relaciones causales con la actividad humana. Como posible elemento de crítica uno podría preguntarse si cabe, el si los mecanismos de evaluación de daños en los comienzos de las series (con seriedad los datos tienen relevancia a partir de los años ’60) pueden considerarse equivalentes en aquellos años ’60 comparándolos con los más recientes. Ahora, todos los medios de comunicación en tiempo real, información satelital, ofrecen resultados más precisos que los que se obtenían en los años ’60.
Pero incluso considerando las series a partir de los ’80, no hay duda de que vamos a más. Aunque, sí que parece que el total de afectados de un tiempo a esta parte parece saturarse (1er gráfico) en un total de unos 100 Millones/año.
¿Serán los afectados siempre los mismos?.
Sin duda fruto de la serendipia han venido a entremezclarse varios caminos que me han conducido a una orilla en la que me encuentro más cómodo que con la ya un tanto desajustada definición de “minero de datos”. Esta nueva orilla es la de un “Data Scientist”.
¿Qué es un “Data Scientist“?
El primero de los caminos en esta guía para iniciados:
 Beautiful Data
At Facebook, we felt that traditional titles such as Business Analyst, Statistician, Engineer and Research Scientist didn’t quite capture what we were after for our team. The work-load for the role was diverse: on any given day, a team member could author a multistage processing pipeline in Python, design a hypothesis test, perform a regressión analysis over data samples with R, design and implement an algorithm for some data-intensive product or sevice in Hadoop, or communicate the results of our analyses to other members of the organization in a clear and concise fashion. To capture the skill set requited to perform this multitue of tasks, we created the role of “Data Scientist”. Information platforms and the Rise of the Data Scientist. Jeff Hammerbacher.
Otro de los caminos, conducen a este puerto:
- Learn about matrix factorizations
- Start learning statistics by coding with R.
- Learn about distributed systems and databases.
- Learn about machine learning.
- Learn about least-squares estimation and Kalman filters.
- Study Engineering.
Y este otro de título sugerente, a este otro más específico:
- Obtain: pointing and clicking does not scale.
- Scrub: the world is a messy place
- Explore: You can see a lot by looking
- Models: always bad, sometimes ugly
- iNterpret: “The purpose of computing is insight, not numbers.”
No está mal empezar con un cambio de identidad.
|