Clústering (III): sobresimplificación

¿Quién fue el segundo hombre en pisar la luna? ¿Y el tercero? Aunque a veces pareciese lo contrario, ¿sabe que hay futbolistas que no son ni Ronaldo ni Messi? ¿Y otros ciclistas además de Contador e Induráin? ¿Y que la Fórmula 1 no se reduce a un tal Alonso?

Diríase que por razones sicológicas, nuestro cerebro tiende a sobresimplificar, se siente cómodo con una representación escueta de la realidad, es reacio a los distingos y grises. Le pirran las etiquetas: dígame de qué partido político es Vd. y enseguida crearé mis propias certezas sobre su opinión acerca de la Guerra de Irak, la visita del Papa a Madrid y el bikini de Leire Pajín.

En esa tendencia a etiquetar y sobresimplificar se basa gran parte del éxito de las técnicas de clústering. Así, cuando a Quetelet le bastaba un único homme moyen hace casi doscientos años, nuestros estadísticos de hoy parecen encantados con media doceneja.

Pero Quetelet, en el fondo, estaba interesado en aquellas desviaciones de los individuos con respecto a su ideal homme moyen: si Quetelet estableció el índice de masa corporal no fue tanto para caracterizar las características antropométricas de su hombre medio sino para poder mejor detectar y cuantificar las desviaciones, tanto por exceso como por defecto, en individuos reales. Hoy en día estas distinciones les resultan odiosas. Al fin y al cabo, no es lo que los clientes de nuestros consultores quieren oír.

¿Prueba de lo anterior? Tómese cualquier presentación comercial/profesional en la que se describan los resultados de un análisis de este tipo. ¿Cómo se describen los clústers? Medias. Se resumen en listas de enunciados del tipo: la media de la variable X en el grupo Y es Z. A lo más, ofrecen una comparación entre la media de una variable dada en un grupo determinado y la media global de la población entera.

Traté en tiempos, cuando trabajaba en una consultora, de crear algún tipo de procedimiento honesto para visualizar clústers. Mi propuesta —manifiestamente perfectible por otro lado— quedó totalmente eclipsada por la de un colega que decidió que bastaba (y era cool) representar las medias de todos los grupos en un gráfico de araña con tantos radios como variables en el que cada clúster venía representado por un color distinto. ¡Nunca antes había visto la necesidad de usar la lupa —existe, ¿eh?— de Windows! Pero era un gráfico que escondía los indicios de sospecha y evitaba de antemano todo tipo de preguntas odiosas por parte de los clientes.

Pero, ¿y la variabilidad dentro de cada clúster? ¿Algún comentario sobre las zonas grises? ¿Cuáles son las observaciones que pertenecen al clúster A y no al B por un pelín de gato?

Hemos visto en una entrada anterior que los centros (o centroides) de los clústers son, habitualmente, irreproducibles. Que es decir poco menos que arbitrarios. Además, la asignación de los sujetos a cada uno de ellos, bien mirada, también es cuestionable.

El siguiente código —y supongo que las mejoras que a él realicen los lectores— permite cuantificar una serie de aspectos que uno nunca verá planteados ni en libros de investigación de mercados ni en los caveats de las consultoras. Permite ver cómo la distancia entre los sujetos de los grupos y sus centros crece al aumentar el número de variables. Es decir, cuantas más variables se utilicen para realizar un análisis clúster, mayor será la diferencia o distancia entre un sujeto y el individuo prototípico que lo representa.

av.dist <- function( n.dim, n.iter ){
       a <- b <- rep( 0, n.dim )
       a[1] <- 0.5
       b[1] <- -0.5
 
       calcular.distancias <- function( ){
               x <- 2 * runif( n.dim ) - 1
               sqrt( c( sum( ( x - a )^2 ), sum( x - b )^2 ) )
       }
 
       distancias <- replicate( n.iter, calcular.distancias() )
}
 
foo <- function( n.dim ){
       tmp <- av.dist( n.dim, 1000 )
       median( pmin( tmp[,1], tmp[,2] ) )
}
 
foo( 2 )
 
foo( 20 )
 
res <- sapply( 1:100, foo )

Queda como ejercicio para mis lectores estimar el tamaño —en proporción del número total de sujetos— que quedan en la zona gris entre ambos centroides según aumenta el número de dimensiones.

En resumen, el éxito del llamado análisis clúster responde en muchos casos y aplicaciones a una inercia sicológica que empuja al ser humano a la sobresimplificación. Dejada aparte la irreproducibilidad, sus efectos distorsionadores aumentan con el número de variables. Y, finalmente, muchos profesionales que aplican este tipo de estudios hacen dejación de sus responsabilidades —o las ignoran— cuando soslayan la variabilidad de los sujetos alrededor de sus prototipos y pasan or encima del problema que suponen las zonas grises.

Y la semana que viene, más.

5 comentarios sobre “Clústering (III): sobresimplificación

  1. ffernandez 3 agosto, 2011 10:42

    Estoy de acuerdo en lo de la variabilidad, realmente para la aplicación que buscan muchos de nuestros clientes sería mucho más productivo pasar de técnicas de clustering y dedicarse a implementar una serie de reglas que definen unos cientes tipo (Podemos incluso ponérles etiquetas al estilo «elfos nómadas»…), qué clientes considero buenos y qué clientes considero malos, y centrarnos más en la distancia que separa a cada cliente de como és de como yo quiero que sea en el futuro, y qué «palancas» puedo tocar para llevarle hasta ahí, cómo puedo hacer los grises un poco más blancos o un poco más negros… A lo mejor esa variabilidad es buena en cierto sentido, a lo mejor me da pistas de por qué unos que antes eran grises ahora son negros. Tres preguntas: ¿Disponemos de alguna técnica que nos permita identificar subconjuntos dentro de una muestra que conformen grupos más puros y estables y cuyo resultado sí sea reproducible a costa de dejar fuera de la clasfiicación a un alto porcentaje de grises? ¿Soy capaz de modelar o explicar de alguna manera por qué los grises se mueven de un sitio a otro en un determinado periodo de tiempo y cómo de cerca están de mis grupos «puros»? ¿Puedo de alguna manera incorporar estos movimientos en el tiempo o esta variabilidad a una segmentación refinada?

  2. datanalytics 3 agosto, 2011 10:54

    @ffernandez
    Me vas a pisar una entrada futura con tu comentario. Las preguntas que haces son de lo más interesante. Algunas pensaba tratarlas dentro de esta serie. Otras me van a dar que pensar…

    Pero has mencionado la palabra fundamental (en cierto tipo de aplicaciones de las técnicas de clústering) que son las palancas.

    ¡Voy a necesitar tiempo!

  3. Freddy López 3 agosto, 2011 14:32

    Yo me convenzo cada vez más que mis jefes tuvieron que trabajar, conocer, admirar y cualquier sinónimo de este jaez a los tipos de la consultora en donde trabajaste. Son espejo de mis desventuras (a veces pienso que solo debí engañar a mis padres y leer, en tiempos universitarios, un buen libro de excel for dummies y holgazanear el resto de las horas)…

  4. jbm 3 agosto, 2011 20:09

    Has olvidado el principio fundamental en la elección de la técnica: qué tal queda en el powerpoint.

    Queda bien decir hemos identificado un cluster de señores de 33 a 45 años casado con de 0 a 2 hijos que vive en una ciudad de 10.000-100.000 habitantes, con una renta de X-Y y uno o dos coches. Su ciclo de vida en nuestros productos es de 5,45 años. Me susurra al oído el Gerente, durante la presentación, satisfecho: «estos de la consultora son unos cracks»

    Aunque con Excel no os metáis, que es la navaja del ejército suizo del día a día en cualquier empresa.

  5. Diego 3 agosto, 2011 22:05

    Me parecen muy interesantes tus críticas al método de clusters pero no me parece adecuada como crítica «que la distancia entre los sujetos de los grupos y sus centros crece al aumentar el número de variables». Esto es algo lógico, ya que lo más frecuente es que dos puntos que están próximos en un espacio n-dimensional, van a estar más lejos (si tomamos como medida de distancia, entre muchas de las posibles, a la distancia euclidea) en un espacio de dimensión mayor a n. Esa lóica es aprovechada de la misma forma por otros métodos estadísticos.

    Creo que como ha sucedido con muchas otros métodos, el método de cluster ha sido muy bastardeado desde Tryon a esta parte y su aparente facilidad de uso, hace que sea ideal para generar malas aplicaciones.

Los comentarios están desabilitados.