Reglas de "scoring" impropias: un ejemplo

Todo lo que he venido escribiendo sobre reglas de scoring propias vino en el fondo motivado por Damage Caused by Classification Accuracy and Other Discontinuous Improper Accuracy Scoring Rules, una entrada en el blog de Frank Harrell en la que se discute el siguiente caso:

  1. El tipo simula unos datos para ser ajustados mediante una regresión logística (de manera que conoce la verdad subyacente).
  2. Construye varios modelos alternativos para ajustarlos.
  3. Utiliza varios scorings distintos para seleccionar el mejor modelo.

Uno de los scorings elegidos es el accuracy (es decir, el número de observaciones correctamente clasificadas). Pero resulta que este criterio, contra lo que cabría esperar, prefiere un modelo distinto del óptimo.

Hummmm…

No discutiré más el caso; está suficientemente bien descrito en el enlace que aparece más arriba. Pero no está de más tener en cuenta ese tipo de cosas. Por si acaso.