Casos de coronavirus en Madrid provincia: un modelo un poco menos crudo basado en la mortalidad (II)

[Nota: el código relevante sigue estando en GitHub. No es EL código sino UN código que sugiere todos los cambios que se te puedan ocurrir. Entre otras cosas, ilustra cómo de dependientes son los resultados de la formulación del modelo, cosa muchas veces obviada.]

Continúo con la entrada de ayer, que contenía más errores que información útil respecto a objetivos y métodos.

Los objetivos del análisis son los de obtener una estimación del número de casos activos de coronavirus en la provincia de Madrid. La de los casos oficiales tiene muchos sesgos por culpa de los distintos criterios seguidos para determinarlos a lo largo del tiempo. Sin embargo, es posible que los fallecimientos debidos al coronavirus, antes al menos de que se extienda el triaje de guerra, son más fiables. Eso sí, la conexión entre unos (casos) y otros (defunciones) depende de una tasa de letalidad desconocida. El objetivo del modelo es complementar la información de los casos notificados con la de defunciones.

Me apoyo, además, en esta entrada de blog en la que aprendemos que:

  • Un contagiado, de morir, lo hace al cabo de unos 22 días de contagio (aunque en nuestro modelo, los sujetos morirán entre los días 6 y 22 sin distingos entre ellos).
  • Un contagiado, de sanar, lo hace al cabo de unos 27 días.
  • Un contagiado puede contagiar a otros durante todo el periodo hasta que al final muere o sana.

Los datos disponibles son los de fallecidos en Madrid por día tal como los provee Datadista. El modelo del modelo (es decir, uno que estás invitadísimo a criticar, reescribir, adaptar y, cómo no, mejorar), está disponible en GitHub.

El modelo que propongo tiene una limitación importante: todos los sujetos tienen la misma probabilidad de morir en caso de contagio. Por otro lado, he tratado de resolver el problema de la variabilidad de la tasa de transmisión (no va a ser igual en pleno 8M que ahora que estamos encerrados en casa) implementando algo parecido a un gaussian random field à la INLA para el famoso R0.

El hecho de incorporar la mortalidad observada infla los casos esperados de enfermos en comparación a un modelo más naif que solo tiene en cuenta lo que dicen las autoridades. Aunque la variabilidad, lo confieso, depende grandemente de las variantes del modelo usado.

Los gráficos que resumen el modelo (que tal vez vaya actualizando) pueden consultarse en GitHub. Las del día en que escribo son:

donde se comparan los casos oficiales (en rojo) con las estimaciones del modelo y

que muestra los casos estimados hoy.

7 comentarios sobre “Casos de coronavirus en Madrid provincia: un modelo un poco menos crudo basado en la mortalidad (II)

  1. Alejandro 23 marzo, 2020 19:40

    Muy buen artículo, muy interesante

  2. daniel tor 23 marzo, 2020 20:36

    La verdad es que no he leído el modelo de github pero creo que se debería de tener en cuenta los datos en otros países, en particular en Italia. Introducir parámetros que pudieran explicar la diferencia entre distintos países y entonces ajustar dichos parámetros al caso de España. Es decir el modelo debería ser válido para distintos países introduciendo los parámetros adecuados. Si logramos crear un modelo que explique lo que ocurre en distintos países utilizando pocos parámetros entonces creo que ese modelo será prometedor. Saludos.

  3. Carlos J. Gil Bellosta 24 marzo, 2020 20:27

    Estoy de acuerdo contigo hasta cierto punto. Idealmente, sí, lo suyo habría sido estimar más zonas simultáneamente para aprovechar la transferencia de información sobre parámetros comunes. Por otro, tengo mucho miedo a la heterogeneidad en los datos entre zonas primero y, después, a lo largo del tiempo. No está clara la definición de «caso» en unos sitios y otros según la intensidad de los tests. Tampoco está claro cómo pueden compararse las letalidades entre poblaciones con estructuras poblacionales distintas.

    Realmente, mi modelo me sirvió (y para eso lo publiqué) más que para aprender de sus resultados o predicciones, de los condicionantes internos y de la dependencia entre aquellos y estos.

  4. Cristina 26 marzo, 2020 18:35

    Ayer estuve trazando un modelo basado en que el número de contagios seguía una distribución normal sobre el total de la población (independientemente de la edad), aunque la tasa de mortalidad evidentemente no se comporta según una distr. normal. No obstante, para que los números relativos de contagiados en la franja de edad de mayores de 75 años se correspondiesen a lo esperado en números absolutos en una distribución normal de contagios, los resultados me arrojaban, haciendo inferencia, un resultado de aproximadamente 326.400 contagiados en España. Con esta cifra se explicaba el número absoluto de contagiados mayores de 65, aunque realicé la aproximación con los mayores de 75, dado que pensé que sería más realista para ajustarlo a números absolutos al pensar que la gran mayoría de personas de esta edad acudirían al médico y, por tanto, serían diagnosticadas. Al inferir los números absolutos en una distribución normal de población, el resultado era 326.400 contagiados.

  5. Jose Luis Cañadas Reche 28 marzo, 2020 18:46

    Solo una cosa Carlos. En tu modelo estás pintando la estimación de nuevos casos (que los introduces con el diff) pero la línea roja que pintas es el acumulado, tmp<-casos , no haces el diff. Lo sigo porque estaba replicando tu código para datos de toda España y me salía la línea roja muy por debajo de las estimaciones.

Los comentarios están desabilitados.