Datanalytics

Archivo

Archivo para la categoría ‘consultoría’

Un manifiesto (y juramento “hipocrático”) para los modelizadores

Viernes, 27 de enero de 2012 1 comentario

Es algo viejo, pero vale la pena traerlo a estas páginas. Se trata de un manifiesto que comienza parejo a aquel otro ahora arrumbado: Un espectro recorre los mercados — el espectro de la falta de liquidez, la congelación del crédito y el fracaso de los modelos financieros.

Habla, sí, principalmente, de finanzas. Pero en gran medida desde la óptica de la modelización y de su responsabilidad en el caos que vivimos ahora. Y, aunque no tiene desperdicio, su colofón de es de universal aplicación y provecho para los modelizadores todos, incluidos los ajenos al mundo de las finanzas. Es una suerte de juramento hipocrático para modelizadores con las siguientes cinco promesas:

  • Tendré presente que el mundo no es obra mía y que no satisface mis ecuaciones.
  • Aunque utilizaré modelos para estimar valores, no me dejaré influenciar excesivamente por las matemáticas.
  • Nunca sacrificaré la realidad en aras de la elegancia sin explicar el motivo.
  • Tampoco crearé en los usuarios de los modelos falsas expectativas de precisión; en lugar de eso, haré explícitas las hipótesis y simplificaciones.
  • Entiendo que mi trabajo tiene un impacto profundo en la sociedad y la economía que, en gran medida, me es desconocido.

Limpieza de cartera y miscelánea de artículos

Miércoles, 25 de enero de 2012 Sin comentarios

He decidido limpiar mi cartera. Llevo en ella unos cuantos artículos impresos que me acompañan desde hace mucho y que, por un lado, me da pena tirar y, por el otro, no me aportan en el día a día. Voy a reciclar el papel sobre el que los imprimí y, a la vez, dejar en enlace a ellos por si a mí un día (o a alguno de mis lectores otro) me da por volver sobre ellos. Son:

¿Qué es un “data scientist”?

Martes, 24 de enero de 2012 1 comentario

Un data scientist es un señor que sabe de varias cosas que no se enseñan ni juntas ni bien por separado en nuestras universidades. Y que, además, se desaprenden rápido en las oficinas y covachuelas donde acabamos ejerciendo. A no ser, claro está, que uno tenga la vocación y la capacidad para nadar contracorriente.

Extraigo de dataists el siguiente gráfico,

que indica cuáles son los tres elementos técnicos —obviando los pertenecientes a otras dimensiones— fundamentales de los que se nutre una carrera como científico de datos.

¿Cómo calificáis vuestras aptitudes en cada una de las tres grandes áreas? ¿Qué podríais hacer por mejorarlas?

Categories: consultoría Tags:

Visualización de la incertidumbre sobre el futuro

Miércoles, 19 de octubre de 2011 Sin comentarios

Recomiendo a mis lectores el artículo Visualizing Uncertainty About the Future de D. Spiegelhalter, M. Pearson e I. Short. Trata sobre qué tipo de representaciones gráficas son más adecuadas para transmitir información acerca de la probabilidad de fenómenos futuros a distintos tipos de audiencias, incluidas las más anuméricas.

Abarca desde los incipientes trabajos de Nightingale y Neurath hasta Gapminder y los más modernos desarrollos de la infografía. Aplaude, por ejemplo, la iniciativa del Banco de Inglaterra de publicar información sobre la posible evolución de indicadores económicos futuros de la forma

que ilustra el carácter incierto de toda proyección a futuro en lugar de sucumbir a la presión de quienes preferirían una cifra redonda.

Algunos de los consejos que dan los autores son:

  1. Usar múltiples representaciones porque no habrá una única que se ajuste a las necesidades de toda la audiencia, teniendo en cuenta que no toda puede tener una adecuada formación numérica.
  2. Utilizar palabras y números para ilustrar los gráficos.
  3. Usar gráficos que permitan la comparación de la parte con el todo, teniendo cuidado con las escalas y magnificando si procede las probabilidades pequeñas.
  4. Para evitar el sesgo del marco, proporcionar porcentajes o frecuencias que muestren los resultados en las dos alternativas que se contrasten y utilizar denominadores de igual tamaño para las proporciones.
  5. Tratar de evitar recursos que produzcan una respuesta emotiva o afectiva.
  6. Evitar la graficaca y el uso de, por ejemplo, el área para representar magnitudes.

Estrategia, predicción y proyección de la población española

Martes, 18 de octubre de 2011 Sin comentarios

Cayó el otro día en mis manos un artículo, Strategy under Uncertainty, que complementa bastante adecuadamente mi entrada del otro día sobre las proyecciones a corto plazo de la población española que realiza el INE.

La estrategia concierne a sucesos futuros. Por ser futuros, son inciertos. Y el artículo describe cuatro niveles distintos de incertidumbre a los que contrapone una serie de posibles estrategias. Los niveles son:

  1. Un futuro suficientemente claro: las tendencias son muy claras y no se esperan sorpresas. En resumen, hay un único escenario posible y la estrategia adecuada consiste en adaptarse a él.
  2. Varios futuros alternativos: existe un número concreto de alternativas o escenarios, cada uno de las cuales con su propia probabilidad de ocurrir. Por ejemplo, los bares barajaron recientemente dos posibles alternativas: la futura ley podría prohibir fumar taxativamente (como ocurrió) o permitir tal vicio en áreas específicas y adaptadas. A cada suceso puede asignársele una probabilidad discreta, diría un matemático.
  3. Un rango de futuros: no existen escenarios discretos y concretos, pero sí un rango de opciones: la demanda puede ser cualquier cifra entre 0 y 1000, etc. Nuestro matemático entendería que este es un problema en el que rigen leyes de probabilidad continua.
  4. Absoluta incertidumbre: ocurre cuando es imposible plantear cualquier tipo de función de probabilidad. No obstante, aunque el artículo recoge algunos casos, subraya también que este tipo de situaciones son inestables y suelen degenerar con el tiempo en alguna de las situaciones anteriores.

Las tres estrategias fundamentales consisten en:

  1. Adaptarse a las circunstancias, receta especialmente indicada en los casos de falta de incertidumbre.
  2. Anticiparse a ellas para tratar de capturar las ventajas de los escenarios más favorables, que es posible únicamente cuando se posee la capacidad para influir efectivamente en el devenir de los hechos.
  3. Reservarse opciones en determinados escenarios posibles y favorables mientras se juega defensivamente en los adversos.

Una proyección de la población española plantea un rango de futuros. Existen muchas variables que pueden afectar al número final de habitantes que pueda haber en España en diez años. Además, muchas de ellas son perfectamente manipulables por los poderes públicos.

El estudio del INE —y especialmente de la forma fatalista en que fue recogido luego por los medios— parece situarnos en el nivel de incertidumbre equivocado. Y sugiere, al hilo de la discusión sobre las estragegias aplicables que no nos queda sino resignarnos a lo oscuro del pronóstico.

Por eso, ¡no!

Riesgo en proyectos de IT

Lunes, 17 de octubre de 2011 Sin comentarios

Tu proyecto de IT puede contener más riesgo del que piensas. De verdad. Dan fe de ello Bent Flyvbjerg y Alexander Budzier.

Los autores describen en el artículo que he enlazado encima varios proyectos que fracasaron estrepitosamente y proporcionan algunos consejos para evitar ese tipo de desenlaces. Sin embargo, para quienes siguen esta bitácora, la reflexión más interesante es la siguiente:

Al focalizarse en las medias en lugar de los casos extremos más dañiños, la mayor parte de los gestores y consultores han ignorado el verdadero problema.

Y es que el sobrecoste medio, el 27 % en la muestra estudiada por los autores, proporciona una visión mucho más optimista que la real:

Al representar gráficamente el sobrecoste, aparece una distribución de cola pesada, un gran número de sobrecostes enormes. Uno de cada seis proyectos estudiados era un cisne negro, con un sobrecoste medio del 200 % y un retraso de casi el 70 %.

De nuevo, las medias, tema sobre el que he escrito en más de una ocasión, nos juegan malas pasadas.

DataWrangler: limpieza y transformación interactiva de datos

Martes, 11 de octubre de 2011 Sin comentarios

Quiero dar a conocer hoy una alternativa a Google Refine de la que he tenido noticia no hace mucho: DataWrangler.

Se trata de una herramienta concebida para acelerar el proceso de manipulación de datos para crear tablas que exportar luego a Excel, R, etc.

Los interesados pueden echarle un vistazo al artículo que escribieron sus autores, Wrangler: Interactive Visual Specification of Data Transformation Scripts y, cómo no, usarlo.

Datos grandes, colas largas

Miércoles, 28 de septiembre de 2011 Sin comentarios

Codd desarrolló el modelo relacional —la base de casi todos los actuales sistemas de bases de datos— a finales de los años sesenta. El modelo relacional, basado en la lógica proposicional, suponía una ventaja sustancial con respecto a los métodos anteriores de almacenar información y bien implementado permite resolver una serie de problemas que afectaban a los sistemas anteriores:

  • Evita la redundancia de los datos.
  • Minimiza los problemas de actualización de los datos en las tablas.
  • Protege la integridad de los datos.
  • Etc.

Sin embargo, hay motivos por los que dicho esquema no es enteramente válido en contextos en los que se manejan datos grandes (para una definición sensata sobre lo que son “datos grandes”, léase este artículo).

La solución al problema de almacenar, procesar y acceder a conjuntos de datos grandes —implementada en diversas plataformas, tanto libres como propietarias— pasa por partirlos y distribuirlos en diversas máquinas y discos.

Pero partir plantea el problema adicional de decidir cuál es el criterio para distribuir la información entre las distintas máquinas. Los criterios a tener en cuenta son los siguientes:

  1. Uniformidad: la distribución de la información por máquina debería ser (idealmente) uniforme: el uso de los recursos (CPU, disco, etc.) de cada máquina debería ser aproximadamente parejo. Piénsese que una operación distribuida de escritura o lectura no termina hasta que no lo hace la tarea asignada al último nodo, por lo que un nodo sobrecargado ralentizaría todo el sistema. Y que el espacio libre en disco se agota cuando se llena cualquiera de los discos.
  2. Localidad: Por otro lado, información que se procese junta debería, idealmente, estar próxima, ser local. Si suelo sumar las ventas de todos mis establecimientos durante un mes, debería segmentar la información por mes. Si me interesa comparar la evolución de las ventas por establecimiento a lo largo del tiempo, segmentar por establecimiento. Las operaciones intranodo son mucho más económicas que las operaciones que involucran tráfico de datos entre nodos. De ahí que un criterio fundamental de diseño sea el de minimizar el tráfico de información entre nodos.

Existen segmentaciones naturales de datos: por punto de venta, por cliente, por persona, por periodo, etc. que, teóricamente, deberían satisfacer el criterio de localidad. Sin embargo, en los datos reales existen, se manifiestan, las llamadas leyes de potencias. Por motivos sobre los cuales estadísticos, sociólogos, físicos y muchos otros han escrito toneladas de papel, muchas distribuciones reales siguen las llamadas leyes de potencias (término que funciona en ocasiones como metáfora de la metáfora de cola larga o de cola gruesa).

Por ejemplo, la distribución del número de SMS enviados por persona: habrá quien mande diez al mes; otros mandarán treinta; algunos, ciento; pero seguro que hay números desde los que se mandan —posiblemente de manera automatizada— mil, diez mil o incluso, un millón. Igual pasa con el número de operaciones en bolsa, el número de billetes de avión adquiridos por cliente (¡los habrá corporativos!), número de visitas a la página por IP, etc.

En estas situaciones, la distribución que resulta ideal para la mayoría de los casos —los pequeños, los normales— es inadecuada en los atípicos: estos crean picos, saturan máquinas y discos, dan lugar a cuellos de botella.

Tradicionalmente, quienes diseñan bases de datos adoptan una visión vertical de las tablas: las columnas tienen su función, son clave primaria, forman parte de un índice secundario, son atributos o clave externa de otra tabla. Y esas propiedades se extienden a todos los registros de la tabla.

Estoy convencido de que los datos grandes exigen una visión no únicamente vertical sino también horizontal, más próxima al contenido, a los datos, que tenga en cuenta el número, significado y estructura de las filas olvidando soluciones de talla única.

Teniendo ese principio en mente, una solución no enteramente ortodoxa —bajo cierta definición de ortodoxia— al problema de las tablas distribuidas con datos de cola pesada puede pasar por

  • descomponer la tabla-relación (en nomenclatura, valga la redundancia, relacional) en dos o más tablas-objeto (no necesariamente relacionales)
  • distribuir cada uno de ellos de acuerdo de la manera más indicada a su contenido y
  • emplazar las filas de la tabla-relación original en las tablas-objeto más adecuadas a su naturaleza.
El acceso a los datos se realizaría de manera distinta según cuáles fuesen los que se necesitasen: cada objeto tendría sus propios índices, distribución, etc. Y el usuario final, si el esquema anterior se implementa y encapsula con cuidado, no necesitaría gestionar la complejidad subyacente. La distribución de cada tabla-objeto debería realizarse de manera que globalmente se satisfaciese el criterio de uniformidad y que el de localidad se cumpla para los más de los datos, los que, por otra parte, casi seguro, son de consulta más frecuente.
Categories: consultoría, sql Tags: ,

La estadística del número tres

Miércoles, 14 de septiembre de 2011 Sin comentarios

Una consulta que he recibido hoy me ha hecho acordar que tenía pendiente una entrada sobre la estadística del número tres, es decir, ¿qué hacer cuando tenemos sólo tres casos?

Hace tiempo publiqué en estas páginas un vídeo sobre este asunto. Lo que no sabía entonces es que existen (o existieron) estadísticos que estudiaron concienzudamente el problema. He aquí unas cuantas referencias:

  • Youden, W. J., The Best Two out of Three?“, J. Chem. Educ., diciembre de 1949, 673-674
  • Lieblein, J., Properties of Certain Statistics Involving the Closest Pair in a Sample of Three Observations, Journal of Research of the National Bureau of Standards, marzo de 1952
  • Youden, W.J., The fallacy of the best two out of three, NBS Technical News Bulletin 33, 77, julio de 1949
  • Youden, W. J., Sets of Three Measurements, Scienfic Monthly, 77, septiembre de 1953
  • … y otras que aparecen en las bibliografías de los anteriores o que los citan.

En realidad, estos artículos tienen que ver, mucho más que con el caso que recoge el vídeo, con el de la medición de fenómenos en laboratorio y su fiabilidad. Se ve que es (o fue) habitual tomar tres medidas de un mismo experimento y dar por buena después la media de las dos más próximas. Los artículos anteriores discuten la conveniencia o no de esa práctica.

Curioso lo del número tres, ¿no?

Dinero y motivación

Martes, 30 de agosto de 2011 Sin comentarios

¿Nos motiva el dinero? ¿Hasta qué punto? ¿En todo tipo de tareas? El siguiente vídeo de Dan Pink, basado en su libro Drive: The Surprising Truth About What Motivates Us, subraya la importancia de otros factores —autonomía, maestría, propósito— como directores de nuestra actividad.


Aunque extraído de una discusión acerca de la conveniencia de pagar a los desarrolladores de R, los más agudos de mis lectores sabrán extrapolar sus enseñanzas a otras circunstancias cotidianas.

Categories: consultoría Tags: