Parametrización de modelos de supervivencia (paramétricos)

He participado directa o indirectamente en algunas decenas de los llamados proyectos de churn. Estoy al tanto de aún más de los que he hablado con otros colegas.

Digresión (para desavisados): se aplica (impropiamente) el término churn a aquellos clientes (en general) que abandonan una compañía o dan de baja un servicio. En realidad churn se refiere al flujo a corto plazo de clientes de poco valor que adquiere una compañía y que pierde enseguida. No sé por qué no se ha popularizado abandono. Uno de los primeros proyectos que abordan los departamentos de inteligencia de clientes de las compañías que se lo pueden permitir es tratar de identificar aquellos clientes con alta probabilidad de abandonarla.

Una de las mayores frustraciones de quienes procedemos del mundo de la estadística es que (prácticamente) nadie se haya planteado jamás utilizar las técnicas del análisis de la supervivencia al abandono. Por algún motivo, el análisis de la supervivencia se ha circunscrito a dos o tres áreas de aplicación pequeñas y estancas: medicina, ciertas áreas de la bioestadística y la demografía, los seguros (¡por supuesto!) y tal vez la ciencia de materiales y la fiabilidad en ingenería. Fin.

Uno de mis grandes temas y que menos amigos me ha granjeado es el de la adecuación de las herramientas de modelación de fenómenos estadísicos a la estructura probabilística del problema. Muchos de quienes trabajan en data mining/science desconocen este tipo de técnicas. Tampoco es culpa suya. Acabo de buscar en el libro (¡muy recomendable!) An Introduction to Statistical Learning la palabra surviv(al) y aparece exactamente dos veces en +400 páginas: la primera asociada al técnicas de discriminación lineal y la segunda a clústering y PCA.

Este preámbulo (que ahora que releo descubro que casi amerita una entrada propia) es solo abrebocas para el asunto de hoy, una parametrización que desconocía de modelos paramétricos de supervivencia y que he descubierto leyendo esto.

Más allá de las consabidas funciones de riesgo, de supervivencia, etc., una parametrización alternativa de T, el tiempo que discurre hasta que ocurre lo que interesa, es posible: \log(T)=\alpha + \sigma W donde W es una distribución de probabilidad de soporte en todo el eje real.

Por ejemplo, para la distribución exponencial, la correspondiente W tiene la antiestética función de densidad \exp(w-e^w) (donde \sigma = 1, \alpha = -\log \lambda). Para la lognormal, W es la normal. Para otras de las habituales, se puede consultar la referencia anterior. Incluso es posible encontrar expresiones \alpha + \sigma W de las que muchos de los modelos habituales son casos particulares.

No estoy al tanto de aplicaciones de esta parametrización pero, sin duda, existen. Si no, a nadie daña una pequeña dosis de culturilla estadística.

5 comentarios sobre “Parametrización de modelos de supervivencia (paramétricos)

  1. José Luis 12 febrero, 2015 10:28

    Interesante, me lo apunto. Y si que es cierto que el análisis de supervivencia se ha circunscrito a ciertas áreas. En mi trabajo he llegado por casualidad a un problema que puede abordarse con estas técnicas, y he tenido que ponerme a estudiar. Así que si me puedes recomendar alguna referencia (a ser posible con ejemplos en R) te lo agradecería.

  2. Francisco Jesus 12 febrero, 2015 11:55

    Yo apliqué el método Kaplan Meyer para la estimación de venta en los casos de demanda no totalmente conocida, es decir, en distribución de prensa ocurría en ocasiones que en los puntos de venta finales (kioskos por ejemplo) cuando se acababa el periódico un día (agotado), había que saber (estimar) cuánto más podía haberse vendido. En función de las veces que se agotaba y de lo que se vendía cuando no se agotaba, el estimador KM de la media dada su simplicidad en la implementación resultó una buena solución para este caso.

  3. Jesús Armand Calejero 12 febrero, 2015 16:50

    Es posible que no lo esté haciendo del todo bien o sí, no sé, tampoco he encontrado mucho sobre esto pero en las últimas semanas he estado desarrollando modelos de supervivencia para analizar el abandono de nuestros mejores tenderos (siendo mejor tendero aquel que consideramos que está registrando prácticamente el 100% de sus operaciones en la tienda, cosa que no podemos saber XD ). Es cierto que se limita el análisis a ciertas áreas pero yo para este caso lo consideré interesante. No sé, igual un día podríamos intercambiar opiniones. Seguro que aprendería mucho.

  4. José Luis 12 febrero, 2015 19:49

    Interesante tu caso Jesús. Yo en mi caso es por una investigación con una compañera sobre el tiempo que tardan los investigadores europeos en conseguir una plaza permanente en una universidad o centro de investigación. Nos interesa analizar sobre todo ver si moverse a otra institución distinta de la de origen(política que se promueve desde las altas instancias) aumenta el «riesgo» de conseguir un puesto permanente. Probamos con modelos paramétricos y con cox models y lo que sale es que si te «mueves» disminuye el riesgo de conseguir plaza, sobre todo si eres un investigador español, supongo que aquí entraría todo el tema de la endogamia universitaria y tal. Por el momento lo llamamos «el que se fue a Sevilla perdió su silla». 😉

  5. Freddy López 15 febrero, 2015 20:26

    Hola. Los capítulos VI y VII del libro Data Analysis Using SQL and Excel, de Linoff pueden ser de utilidad para estos asuntos de la tasa de abandono: «How Long Will Customers Last?» y «Factors Affecting Survival: The What and Why of Customer Tenure»… Saludos.

Los comentarios están desabilitados.