Clustering (I): una pesadilla que fue real

Comienzo hoy una serie de entradas en seis entregas sobre una muy utilizada técnica de análisis de datos de la que soy un profundo detractor. Reconozco que uno de los motivos, aunque menores, de esta postura estriba en que carece de un nombre castizo y reconocido en español. Aunque por ahí gusta agrupación o agrupamiento, yo siempre he preferido arracimamiento: aparte de su valor visual, descarga el término grupo, manifiestamente sobreutilizado en muchos ámbitos.

Aparte de las estrictamente lingüísticas y eufónicas, tengo otros motivos por los que recelar de este tipo de técnicas que espero ir desgranando en las entradas sucesivas. Pero quiero comenzar con el relato de una pesadilla acaecida hace unos años que resume lo que se cuece en las trastiendas de sus valedores.

Trabajaba yo para una consultora especializada, entre otras cosas, en la llamada segmentación de clientes, una práctica de dudosa valía que los departamentos de marketing de determinadas empresas aplican de oficio. Consiste en partir la masa de clientes en determinados grupos (típicamente entre seis y doce) que comparten cierto tipo de características similares.

El quid de la cosa consiste en crear grupos accionables (que es otra manera de decir con interés para la empresa: básicamente, que respondan de una manera más o menos previsible a las acciones de marketing que se realicen sobre ellos), fáciles de describir, homogéneos con respecto a una serie de variables críticas, etc.

La segmentación de clientes no es un puro clústering: exige que los clústers obtenidos satisfagan determinados criterios. Por eso es típico seleccionar variables, transformarlas, remuestrear, modificar las condiciones iniciales de los algoritmos, etc. hasta que ?aquí reside la clave? la segmentación obtenida se acomode a los criterios deseables preestablecidos. ¡No otro es, típicamente, el criterio de bondad!

La pesadilla de la que quiero dar cuenta comenzó un buen día en que mi compañero Julio y yo habíamos acabado nuestra segmentación para una importante empresa española y la habíamos presentado en petit comité con nuestros rutilantes powerpoints. La gran presentación habia de realizarse el día siguiente. El número de clústers, su tamaño aproximado, el nombre de cada uno de ellos, el blablabá marketiniano de por qué su sin par relevancia, etc. estaban ya cincelados en mármol y eran absolutamente inamovibles… hasta que descubirmos un inexcusable error en el cálculo de una de las variables más relevantes. ¡Oh, calamidad!

De las dos opciones obvias (ambas incompatibles con el nocturno reposo) que se nos ocurrieron, descartamos la, posiblemente, más honesta: reconocer el error, rehacerlo todo y asumir las, previsiblemente, acérrimas consecuencias. Conscientes no obstante de que los algoritmos de clústering, dada su dependencia en el muestreo ?no lo hacíamos sobre la población entera de varios millones de clientes sino sobre muestras de varias decenas de miles de ellos? y las condiciones iniciales, son sumamente inestables ?es decir, dos ejecuciones diferentes sobre dos muestras de la misma población pueden dar resultados totalmente distintos? probamos suerte.

Y, voilá, a las tantas de la mañana, a fuerza de muestrear e iterar, obtuvimos una segmentación sobre los datos corregidos que nos plugo: encajaba a la perfección con la descrita de antemano con los datos truchos.

Puede que alguien pueda realizar alegaciones de índole moral a todo esto que aquí confieso. Y que la discusión al respecto puede ser sumamente enriquecedora. No obstante, anuncio interesan más las de tipo técnico, que iré desarrollando en futuras entregas.

6 comentarios sobre “Clustering (I): una pesadilla que fue real

  1. Jack 11 julio, 2011 9:35

    Buenas,

    siento decirle que no he entendido nada de lo que ha publicado en este post y no es por el desconocimiento de la materia de la que habla, sino porque no está bien redactado.

    Una pena, ya que el inicio parecía prometedor.

  2. Juan José Gibaja Martíns 11 julio, 2011 11:33

    Hola Jack:

    Pues está en castellano y muy bien escrito, diría yo.

  3. datanalytics 11 julio, 2011 13:19

    @Jack Gracias por tu comentario. Voy a revisar con cuidado lo que escribí el otro día porque los calores de julio me tienen fritos los sesos.

    Pero quiero hacer constar el comentario (privado) de un compañero al que espero no le moleste mi copiaypega. Dice esto al respecto:

    «El problema es que no empleas el leguaje adecuado. Te faltan términos del tipo know-how, expertise, slides,… y por supuesto definir la segmentación con palabras del tipo guerrilleros, mariposas, apóstoles,… Así te pones en el nivel de la media. De todos modos es muy interesante porque creo que sé hacia dónde vas, cuesta abajo y sin frenos a criticar un algoritmo que nos da de comer a muchos dinosaurios. Así que mucho cuidado por si soy el siguiente en arremeter contra el blog. Mínimo exigiré un contraejemplo que pueda replicar en mi casa.»

  4. ffernandez 11 julio, 2011 13:54

    He intentado poner un comentario antes y se ha quedado colgado, así que lo siento si lo duplico. Me he quedado con las ganas recientemente de ir a esto :http://www.icors11.uva.es/program.html
    El problema es romper el miedo psicológico a que mis algoritmos robustos tarden 30 minutos en lugar 1 (qué más da si lo voy a ejecutar a las 12 de la noche…) y asumir que un alto porcentaje de mis clientes serán inclasificables dentro de esas 6 a 12 etiquetas predefinidas. Siguiendo la línea de lo que comentas acerca de los nombres de la segmentación, equivaldría a asumir que tengo un grupo «bastardos»…
    Os recomiendo echarle un ojo al paquete tclust de R (que es posible ya conozcáis).
    También es cierto que cualquiera de estas técnicas va a chocar de frente con las «reglas expertas», «criterios de negocio» o como quiera llamárseles. Probablemente sea una batalla perdida…

  5. Freddy López 12 julio, 2011 16:12

    Yo he estado en trabajo de ‘clústerin’ (tampoco entiendo por qué no usan palabras castellanas pero no puedo luchar contra un departamento que es de ‘márquetin’ y es de una transnacional) y puedo decir, según mi experiencia, que es medio iluso esto de la segmentación. Como dices, uno termina trabajando con muestras para que las memorias de nuestras herramientas no exploten y una muestra puede tener (¿o tendrá, casi seguramente?) resultados espantosamente distintos a otras por más que creamos que hemos pulido, filtrado, depurado, y quitado todas esas cosas que nos podrían arruinar el trabajo.

    También hay que adivinar la cantidad de grupos que no solamente cumplirán con los criterios de bondad que aludes, sino que satisfagan el variable apetito gerencial y corporativo del jefe del departamento que, estando de un humor podría querer 2 grupos y estando de otro, 7 (esto suele depender, en algunas oportunidades, de la cantidad de grupos que estableció el departamento de márquetin de alguna división enemiga -donde no trabaja ningún estadístico o compatible).

    Pero nada, uno se viste de estadístico e intenta sobrevivir en el mundo empresarial… s e g m e n t a n d o…

  6. Guillermo 5 junio, 2014 11:30

    Análisis de conglomerados o racimos, son las traducciones que yo siempre he usado, y me parecen muy satisfactorias. No calificaría de dudosa la técnica de segmentación de clientes, sino la manera en que a menudo se gestiona y valoran resultados en la empresa, así como el recurso a tirar un k-means y palante de los analistas (no he leído la serie entera, no sé si vas por ahí, prometo hacerlo en algún momento).
    Gracias por tu sinceridad y tu actitud general de compartir conocimiento e inquietudes, hacen de tu blog algo especial.

Los comentarios están desabilitados.