Modelización de retrasos: una aplicación del análisis de supervivencia

En vigilancia epidemiológica contamos eventos (p.e., muertes o casos de determinadas enfermedades). Lo que pasa es que el caso ocurrido en el día 0 puede notificarse con un retraso de 1, 2, 3… o incluso más días. En algunas aplicaciones, incluso semanas.

¿Cómo estimar el número de casos ocurridos el día 0 el día, p.e., 5?

Se puede aplicar el análisis de la supervivencia donde el evento muerte se reinterpreta como notificación. El el día 0 todos los sujetos están vivos y, poco a poco, van cayendo. Como en los consabidos modelos/gráficos de Kaplan-Meier,

Incluso, si el retraso puede atribuirse a distintos factores (por ejemplo, el día de la semana en que se produce el evento porque la gente que los comunica deja caer el boli el viernes a las tres), pueden construirse distintas curvas, como en

Hecho lo cual, ¿cómo estimar el número de casos del día 0 el día, p.e, 5? El modelo proporciona la proporción de notificados, x. Así que se hace una regla de tres y si a x le corresponden n notificados, a 1 le corresponderán… n/x.

Pues no, no, no, no… ¡no!

Ese modelo trivial es más inestable que el carajo. ¡Imaginad como puede bailar ese estimador cuando x es del orden del 1%!

Es mucho mejor utilizar un suavizado (de inspiración bayesiana). Si m es el número medio de notificaciones diarias, es mucho mejor utilizar

n + (1 - x) m

que vendría a ser un promedio de nuestro modelo anterior con peso x y otro modelo más simple (con peso 1 -x) que asigna a cada día un número de notificados igual a la media histórica.

Así funciona (y no siempre tan bien como sería deseable) esto, de donde extraigo

Nota: En el gráfico hay algo más, un poco más, que es lo que permite construir intervalos no muy confiables de confianza alrededor del estimador construido más o menos como se indica arriba.

Otra nota: Este es el tipo de cosas que hacemos en Circiter y gracias a las cuales nos distinguimos (muy favorablemente) de otras empresas donde, bueno,… la estadística… Callaré, mejor.

2 comentarios sobre “Modelización de retrasos: una aplicación del análisis de supervivencia

  1. Jose Luis Cañadas Reche 3 julio, 2019 16:10

    Muy bueno Carlos.
    Yo ando en esas empresas dónde casi ni se oye la palabra «estadística».
    Me quedaré con ganas de hacer uno de estos modelos aplicados a cosas como la fuga de clientes.

  2. Carlos J. Gil Bellosta 3 julio, 2019 16:15

    Ya sabes que toda la estadística que se necesita en ciencia de datos es la que sirve para crear e interpretar «dashboards» y que se aprende en unas tardes, ¿no?

Los comentarios están desabilitados.