Replicabilidad (y su falta de ella, fuera de la academia)

Se habla mucho de replicabilidad (y la falta de ella) como indicio de una crisis en ese complejo de intereses económicos, de poder y, en ocasiones, fornicatorios en que ha devenido la ciencia. Pero qué más nos da que se publique un artículo más o un artículo menos o que una ocurrencia irrelevante, gracias a un sinfín de artefactos propios de la industria de la salchicha, sea cohonestada con un p-valor menor o mayor que 0.05. Qué más da.

El mismo problema, por motivos de muy diversa índole, ocurre también en la economía real. Y demasiado frecuentemente. Ilustrativo de ello es un correo que recibí la otra noche de alguien que no puedo mencionar y del que extraigo:

Aunque en el test/validate nos funciona el modelo con un AUC razonable (0,78) al predecir el churn del mes siguiente funciona faltal (0,57 de AUC). No sé si tienes algún insight que puedas darme

Precisamente, la promesa del sistema de entrenamiento validación es que se trata de una cura en salud. Sin embargo, existen mil motivos por los que las cosas pueden funcionar mucho mejor en laboratorio (o sobre el papel) que cuando se confrontan con la realidad del mundo. Por ejemplo, contaminación de los datos con la variable objetivo o el uso de información futura a la hora de crear los modelos. Y más.

Algunos son puramente fraude: todo el mundo tiene incentivos para hacer cualquier cosa, cobrar, desaparecer y que apechugue el siguiente. Pero incluso entre gente decente pueden ocurrir esas cosas: puede ser descuido, puede ser pereza, puede ser falta de tiempo para evaluar los escenarios menos favorables,… pueden ser, de nuevo, mil cosas.

En ciencia, al menos, se exige cierta (y cada vez más) transparencia. Los trabajos se publican y existe una cultura (no universal y homogéneamente repartida) de colaboración. Pero en la consultoría, como bien sabemos, no. Que redunda en ineficiencias y costes que, al final, acabamos pagando entre todos.