Datanalytics

Archivo

Entradas Etiquetadas ‘consultoría’

Pero mañana seguiremos usando Excel

Martes, 23 de abril de 2013 4 comentarios

Inmerso en asuntos que los más catalogarían de friquis, he permanecido ignorante de los más de los infelices sucesos que nos ha regalado el mundo durante los últimos días.

Pero sí que he tenido ocasión de enterarme de algo de ese runrún, imagino que conocido de los más, sobre unos economistas encopetados que usanban Excel (y unos economistas muy encopetados). Noticia que se suma a otra que guardaba para comentarla un día: cómo JP Morgan estuvo calculando su VaR erróneamente durante años por los mismos motivos.

Todo esto vino a suceder el mismo día que, finalmente, conseguí bajarme una copia pirata del último libro de Taleb, Antifragile. Aún no he leído nada del libro, pero barrunto de qué trata y adivino que Excel no es, en absoluto, antifrágil.

Las dos noticias que menciono más arriba no son hechos aislados y tanto da si en un artículo se ha sobreestimado o dejado de sobreestimar el crecimiento del PIB de nosequé países punto arriba o punto abajo. O si JP Morgan pilotaba con instrumental trucho. Es lo de menos.

Lo de más es la suma de errores —y las ineficiencias que se derivan de ellos— causados por miles, millones de documentos en Excel que pululan en empresas, instituciones, departamentos, universidades, fábricas y demás.

No obstante, mañana seguiremos usando Excel.

(Incluso para cuantificar el llamado riesgo operacional, es decir, el causado por operaciones incorrectas, incluidas aquellas que tienen como origen el uso —no solo indebido: todo el uso— de Excel).

Categories: consultoría, números Tags: ,

¿Cómo vota la gente?

Martes, 26 de febrero de 2013 Sin comentarios

La gente vota de muchas maneras. A bote pronto, uno diría que lo hace cada cuatro años con papeletas y en medio de parafernalia de listas cerradas, mítines y similares aditamentos.

Pero hay otros que opinan que hay mecanismos alternativos de voto. La gente puede votar en Twitter, por ejemplo. Y algunos conceden a esos votos una relativa potestad para adivinar o, incluso, influenciar fenómenos de importancia económica, política o social.

Quienes entablan batallas numéricas después de las manifestaciones, qué duda cabe que atribuyen efectos plebiscitarios a que la cola de la marcha llegase o no a Atocha cuando la cabecera entraba a Colón.

Incluso una vez leí de alguien que las guerras civiles son circunstancias igualmente plebiscitarias y quien las gana puede asumir estar en posesión de un mandato popular. (No os voy a decir a cuenta de qué guerra civil en particular opinaba eso para que no tengáis fácil eso de pensar si andaba o no desatinado; solo os daré una pista: se refería a una en la que se consideraba afín al bando vencedor, algo en lo que podría o no podría coincidir con vuestro parecer).

Pero desde hace años vengo pensando que, en realidad, la gente vota con la tarjeta de crédito. Al mundo le damos forma eligiendo productos y servicios diariamente —¡las palabras en Twitter son demasiado baratas!— y que quienes se pelan el culo haciendo exégesis de tuits y encuestas envidiarán a muerte a quienes dispongan la contraseña de la base de datos sobre la que consultar

select * from credit_card_transactions where ...

Sobre los límites de la minería de datos

Miércoles, 2 de enero de 2013 1 comentario

Guardaba en la cartera un artículo que ya pronto cumple sus cinco años. Sirve de contrapunto a toda esa literatura que describe la minería de datos como una suerte de panacea, la cómoda senda hacia un futuro de armonía y color.

Se trata de una entrevista a Peter Fader sobre a lo que la minería de datos alcanza y no alcanza.

Los estadísticos se sienten relativamente cómodos ascendiendo de lo particular a lo general (por ejemplo, calculando una media). En contraposición, la promesa de la minería de datos consiste en la predicción del comportamiento de los individuos, de cada individuo, a partir de modelos construidos sobre repositorios de datos cada vez más extensos y perfiles más detallados de cada sujeto.

Distingue por tanto Fader entre propensión y comportamiento. El comportamiento, la acción que realiza un individuo concreto, está sujeto a una aleatoriedad tal, es tan etéreo, que, entiende, es inútil tratar de acotarlo (o adivinarlo) mediante modelos predictivos. Quien lo probó, lo sabe.

Nótese además, que una predicción de comportamiento tiene una doble vertiente: el qué y el cuándo. Y que muchas de las predicciones que uno encuentra (y construye) ignoran esa componente temporal.

¿La alternativa? El estudio de las propensiones, que afectan ya no tanto a individuos concretos sino a grupos de ellos. Defiende Fader, como alternativa a los modelos típicos de la minería de datos, lo que llama modelos probabilísticos —sin entrar en mayores detalles—. Una de sus pecularidades es que no precisan de tal cantidad de información —y, en particular, tantas variables— como los que gustan a los mineros de datos. Lo que le lleva a abogar por una especie de involución hacia el small data.

¡A los datos mismos!

Viernes, 27 de julio de 2012 1 comentario

Me llamaron (y aún no tengo claro qué hay de lo mío en el asunto) para un proyecto. Consistía en estimar el tiempo que lleva completar determinados procesos en una conocida empresa.

Cada proceso P_i, se ve, consistía en una sucesión de subprocesos parametrizados, por lo que las duraciones podrían calcularse algo así como

P_i=p_{i1}+\dots+p_{ik}.

Además, cada p_{ij} dependía de ciertos parámetros, aunque eso no es lo más relevante para el caso.

El objetivo del proyecto, como decía, era realizar estimaciones de la duración de los procesos pero la forma en que me lo plantearon, calcular la media y la varianza o algo así, me puso sobre aviso.

En una primera lectura, me di cuenta de que cabría pensar que la distribución de la duración de cada p_{ij} podría aproximarse por algo así como una mezcla de distribuciones de Poisson. Una de ellas, con un parámetro pequeño y un peso elevado, correspondería a las situaciones normales y la otra, con un parámetro muy alto y un peso pequeño, a las situaciones excepcionales (posiblemente relacionadas con incidencias de servicio y otras circunstancias).

En esa coyuntura, las distribuciones tienen una cola pesada y la media y la varianza se convierten en indicadores engañosos de la realidad: ¿de qué sirven si casi siempre se termina en 2 o 3 días pero en un buen 5% de los casos la demora puede llegar a exceder los 20 días?

Además, las características del proyecto y sus distintas circunstancias me trajeron a la memoria un pequeño artículo de Chris Anderson que, tras arrancar con la consabida cita de Box,

Todos los modelos son falsos, pero algunos son útiles

se lanza a criticar la vieja ciencia a la vez que aportar evidencias de la emergencia de una nueva que rehuye los modelos tradicionales. Estos serían mecanismos simplificadores de la realidad y resumidores de datos que, en la era pre-Google, eran imposibles de comprehender en su conjunto.

Y los éxitos de esta nueva ciencia en la que la correlación reina sobre la causalidad son innegables: Google traduce textos, y no mal del todo, sin saber si “blanco” es un adjetivo (le basta con la abrumadora evidencia documental de que tiene que ver con “blanc”, “white” y sus análogos en otros idiomas) o cuál es la función gramatical de un adverbio.

¿Por qué, entonces, tengo que fatigar el cerebro para ver si una mezcla de distribuciones de Poisson tienen o no un ajuste razonable? ¿Por qué no dar por buena la distribución misma de los datos —la duración de los procesos previos— como… su misma distribución? ¿Qué ganamos?

Ciencia e ingeniería; estadística y… ¿y qué?

Martes, 26 de junio de 2012 4 comentarios

Los científicos llevan desde siempre (aunque con notable más fortuna en los últimos 300 o 400 años, a lo sumo) descubriendo y describiendo los pedacitos funcionales del universo. Los ingenieros, luego, los combinan y crean objetos útiles con ellos: aviones, ordenadores, prótesis, etc.

Los estadísticos llevan cien o ciento cincuenta años largos tratando de domesticar el azar. Y han identificado una enorme variedad de herramientas con las que navegarse en un mundo casi ahogado en cifras. Al mismo tiempo, existe caos. Existe información; pero que se parece muy poco a los cuadros de números casi de jueguete que aparecen en los libros. Existe la necesidad imperiosa de entenderla y ponerla a trabajar en nuestro favor.

Pero diríase que falta una estirpe de ingenieros estadísticos que las hagan suyas, las combinen con las herramientas informáticas y conocimientos de otras disciplinas concomitantes para generar resultados valiosos, mejorar procesos y servicios y contribuir, si se me permite, al avance de la sociedad.

¿Llegarán?

¿Se puede predecir con Twitter?

Lunes, 14 de mayo de 2012 Sin comentarios

Tal y como quedaron establecidos hace 80 años los parámetros para determinar si una hipótesis es o no plausible —por no calificarla de significativa o, más malévolamente, publicable— sólo una de cada veinte lo serían.

Es un hecho que contrasta con la habilidad de los consultores que se dedican a esa labor tan difícil de acotar y que va desde la estadística a la minería de datos tocando otras áreas más o menos afines. Los buenos, siempre encuentran efectos significativísimos y relevantísimos con que adornar sus presentaciones. So pena de ser sustituidos por otros con todavía menos escrúpulos que sepan envolver con maña en pan de oro el accidente y la aleatoriedad.

Análogamente, una miríada de publicaciones sobre Twitter han contribuido a crear una especie de halo casi místico alrededor de dicho servicio de microblogs: dizque permite tomar el pulso a la sociedad hasta el punto de permitir predecir, entre otros, resultados electorales.

Por eso es refrescante leer artículos como I Wanted to Predict Elections with Twitter and all I got was this Lousy Paper de Daniel Gayo Abello, que ofrece una crítica razonada de la, por así llamarla, literatura optimista.

En resumen:

  • No todo el mundo está en Twitter, por lo que las conclusiones que se obtengan a partir de él tienen un sesgo geográfico y demográfico. La gente, de hecho, lleva décadas escribiendo libros sobre muestreo por algún motivo.
  • Ni siquiera todo el mundo escribe sobre política (relevante a la hora de predecir elecciones) en su cuenta de Twitter.
  • No todo lo que aparece en Twitter es verdad: hay contenido generado por robots, cuentas falsas, etc. que puede sesgar los estudios.
  • Desentrañar el significado de un mensaje no es sencillo para una máquina cuando este está envuelto en sarcasmo, encierra juegos de palabras, etc.

Cuando falta la variable más importante (II)

Jueves, 12 de abril de 2012 1 comentario

No sé si esto que voy a contar me obliga a tragarme mis propias palabras. Porque siempre he pensado que era poco menso que imposible. Pero hace unos pocos días escribí sobre el asunto y hoy traigo otro similar a colación.

La variable más importante a la hora de construir un modelo es, precisamente, la que se quiere predecir. Casi todos los textos asumen que se conoce sin ningún género de dudas en, al menos, una determinada muestra que, además, corresponde más o menos a la población subyacente: si el paciente sobrevive o no; si la hipoteca entra en mora o no; si el cliente responde a la oferta o no, etc.

Pero hay muchos problemas famosos y relativamente urgentes en los que la situación es distinta. En la entrada a la que hago referencia más arriba, sólo se conocía el valor que predecir para un conjunto de casos, los positivos. Pero era desconocido para la gran masa.

El problema aparece también en el riesgo de crédito: el banco sólo tiene información sobre la situación crediticia de aquellos clientes que no fueron rechazados previamente. Pero es necesario crear un mecanismo de medición del riesgo para todos los clientes. Y todos es una población distinta de aceptados. ¡Y qué peligrosas son las extrapolaciones!

En otro contexto en el que aparece es en el de la determinación de lo que llaman share of wallet, el porcentaje de, por ejemplo, la cesta de la compra que realiza un consumidor en una determinada cadena de supermercados (desconociéndose las compras que realiza en los de la competencia) o la cantidad de transacciones financieras que realiza en una determinada entidad (cuando existe la posibilidad de que tenga también cuentas activas en otras).

Ahora me encuentro con la corrección de Heckman, que le valió al susodicho el premio Nobel de economía. Traduzco de la Wikipedia:

Supóngase que un investigador quiere estimar cuáles son los determinantes de las ofertas de salarios pero sólo tiene acceso a los salarios de aquellos que trabajan. Dado que quienes trabajan forman una muestra no aleatoria de la población, estudiar estos determinantes sobre este subconjunto introduciría un sesgo.

Información adicional sobre esta corrección puede encontrarse en este enlace.

Nota: El modelo puede implementarse en R usando el paquete sampleSelection

Cuando falta la variable más importante

Lunes, 9 de abril de 2012 Sin comentarios

Imaginemos que queremos predecir y, que toma valores 0 y 1 a partir de indicios (o variables) x mediante una función (un clasificador) f. Podemos visualizar el error de clasificación usando la matriz

Efectivamente, el error es (perdónenme la notación) B+C. Como estadísticos estamos habituados a tratar de minimizar C mientras mantenemos B lo suficientemente pequeño. Un test es tanto más potente cuanto menor es C.

Pero podemos reescribir B+C como

B+C = (A+B) - (A+C) + 2C

Identifiquemos estas partes:

  • A+C es fijo y corresponde a la probabilidad (o frecuencia) de que y=1.
  • A+B corresponde a los casos en que f(x)=1.
  • C es el error que se produce cuando y=1 y f(x)=0, es decir, la incapacidad de detectar el valor 1.

Esta representación es inhabitual. Pero permite controlar el error tratando de minimizar A+B por una parte y 2C por otra; es decir, por una parte, tratando de asignar el menor número posible de valores 1. Y por la otra, tratando de reducir el número total de 0 erróneos sobre la colección de los y=1.

¿Por qué es útil esta representación? Pues porque permite afrontar un problema habitual en muchos ámbitos: tratar de predecir un fenómeno cuando éste no es observable en toda la población, pero existe un número suficiente de marcas y=1 conocido. Un ejemplo: buscamos un clasificador de artículos científicos que distinga los de matemáticas de los de otras disciplinas. Tenemos un corpus amplio de artículos sin clasificar de todo tipo y un conjunto de artículos de matemáticas (nuestros y=1).

Otro ejemplo: tenemos una población inmensa de “clientes” entre los que hay “defraudadores” pero no sabemos cuáles son. Pero tenemos una colección de “defraudadores” previamente identificados.

Esta aproximación al problema viene no sin ciertos caveats presenta serios peligros: ¿qué pasaría con los artículos de estadística? ¿Cómo podríamos, a ciegas, saber si son de matemáticas o, como sucede realmente, de una disciplina semántica y sintácticamente próxima?

Sobre estos asuntos podrá averiguar más quien lea Partially Supervised Classification of Text Documents.

Churn y redes sociales: un ejemplo en telecomunicaciones

Martes, 3 de abril de 2012 6 comentarios

He leído recientemente el artículo Social Ties and their Relevance to Churn in Mobile
Telecom Networks
porque ilustra una técnica muy de moda: el análisis de redes sociales (SNA) en en ámbito de las telecomunicaciones y, en particular, la construcción de indicadores tempranos de baja (churn) de clientes de telefonía móvil. Más aún, permite rediseñar estrategias basadas en los resultados para retener clientes: al clasificarlos mejor usando técnicas de SNA, pueden diseñarse estrategias activas para aquellos que no sólo tienen una mayor predisposición a darse de baja sino, además, a arrastrar con ellos a parte de su entorno social.

El artículo, en resumen, introduce dos indicadores. El primero, p(k), es más ilustrativo que práctico: se trata de la probabilidad de que un cliente que tiene k conexiones —una conexión es alguien con quien el cliente ha hablado durante un determinado periodo— que se han dado de baja previamente se dé él mismo de baja. El gráfico siguiente muestra cómo p(k) es una función creciente de k. Sin embargo, el indicador puede no ser particularmente útil dado que, estoy seguro, el número de clientes para los que k > 1 es, casi seguro, muy pequeño.

En la segunda parte los autores construyen un modelo de propagación. Les interesa no sólo contar —y construir, de paso, probabilidades de corte frecuentista— sino explicar la dinámica y aprovecharla para construir modelos más útiles. La idea es la siguiente: un cliente que se da de baja transmite una señal a aquellos con los que se comunica. La señal puede ser del tipo esta compañía es malísima, me voy a ir a esta otra. No se sabe realmente cómo es la influencia, pero los autores la aproximan de la siguiente manera:

  1. Asignan a cada cliente que se da de baja en un periodo determinado un cierto nivel de energía.
  2. Un porcentaje de este nivel de energía se transmite de ellos a sus contactos en función de ciertos criterios (a mayor nivel de contacto, mayor flujo de energía). Este criterio preserva la energía: la energía total del sistema antes y después de la redistribución es la misma.
  3. Los contactos que tienen un nivel de energía mayor que cero lo transmiten recursivamente a los suyos.
  4. El proceso se itera hasta que alcanza un equilibrio razonable.

Al final, a muchos clientes (técnicamente, a los que pertenecen a la unión de las componentes conexas que contienen a las bajas) se les habrá asociado un nivel de energía. Y este nivel de energía es, según los autores, un indicador temprano de baja de alto valor predictivo.

¿Será?

Las preguntas oportunas brillan por su ausencia

Viernes, 9 de marzo de 2012 6 comentarios

Se levantó un revuelo hace unos días en la profesión a raíz de la noticia de que Target había descubierto que una adolescente estaba embarazada antes que sus mismos padres. En el artículo se explica cómo lo hacen:

[...] identificó unos 25 productos que, cuando se analizaban juntos, le permitían asignar a cada cliente una “probabilidad de embarazo”. Más aún, podía estimar la fecha del parto con una gran precisión, de manera que Target podía enviar cupones de acuerdo con la fase del embarazo.

La noticia ha aparecido en diversos medios (p.e., aquí, aquí y aquí). Incluso ha habido una encuesta en KDNuggets sobre las cuestiones éticas que rodean a esa posible intromisión en la privacidad.

Pero la noticia ha sido presentada desde una óptica prácticamente taumatúrgica, como si Target poseyese una de bola de cristal infalible. Y estoy seguro, casi seguro, me apostaría muchísimo, a que la realidad dista mucho de lo que se ha contado. Y me sorprende que nadie se haya planteado las preguntas adecuadas:

  • ¿cuántas mujeres (¡y hombres!) están recibiendo cupones premamá?
  • ¿cuántas mujeres embarazadas reciben cupones de lociones de afeitado?
  • Y más fundamentalmente, ¿gana dinero Target realmente a través de esos cupones premamá?

Nota: el autor de esta entrada trabajó hace un tiempo en el piloto de lo que se convertiría en el Club Carrefour. Los responsables de la cosa estaban muy interesados en que los cupones se canjeasen. Pero ante preguntas como si se habían planteado la conveniencia de que la gente recibiese descuentos por cosas que tal vez comprasen de todos modos sin descuento y otras similares (que incidían en el problemático desalineamiento entre canjear cupones y ganar dinero)… ¡ponían una cara más rara!