Sobre la (necesaria) validación a posteriori de modelos de caja negra

Esta entrada viene a cuento de una conversación que tuve el otro día con un economista clásico que me preguntaba mi opinión sobre los métodos del ML aplicados en su disciplina (y no solo en ella). Le causaba cierto desasosiego, muy razonable, el hecho de que le pusieran delante cajas negras que presuntamente, y eso era artículo de fe, predecían ciertos fenómenos macroeconómicos. ¿Qué —decía— si los modelos están recogiendo las correlaciones erróneas? (Y sí, el mundo del ML está plagado de casos de ese tipo; por ejemplo, léase la motivación de Intelligible Models for HealthCare: Predicting Pneumonia Risk and Hospital 30-day Readmission).

Típicamente, tradicionalmente, uno define un modelo (digamos que generativo) con una serie de variables de las que uno espera un comportamiento predefinido, etc. Y uno valida el modelo en términos de la bondad de ajuste, la capacidad predictiva… pero no solo eso. El hecho de que las variables (su tamaño, su signo) operen de la manera esperada sirve como comprobación adicional para poder darlo por bueno.

¿Y con modelos de caja negra?

Hasta no hace tanto, era una rareza realizar sobre ellos validaciones adicionales. Se daban buenos si funcionaban. Supongo que eso le dijeron a mi economista: que lo que le enseñaban, funcionaba. Pero hoy en día es cada vez más frecuente (y contamos con herramientas cada vez mejores) para realizar este análisis a posteriori. Precisamente, para verificar que las variables mueven el modelo en al dirección que esperada, etc. Es decir, lo de siempre, solo que tal vez de otra manera.

No va a servir para todos los casos (para los más, los modelos generativos funcionan y lo hacen bien), pero sí para algunos. Igual mañana (me están apremiando para ir a otra parte lejos del teclado) me animo y describo un caso paradigmático de aplicación.

Un comentario sobre “Sobre la (necesaria) validación a posteriori de modelos de caja negra

  1. Isidro Hidalgo 28 marzo, 2019 12:48

    Muy interesante el paper. El caso de los asmáticos y las embarazadas es muy revelador: los datos omitían el tratamiento posterior de los pacientes… Hay que tener mucho cuidado con los modelos, es evidente, pero a veces… ¡mucho más con los datos!… Gracias

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.