Todos los errores son iguales, pero algunos son más iguales que otros

2015-8-28 (Última modificación: 2015-8-28)

Por eso, en la práctica, el RMSE y similares son irrelevantes. Aunque eso, desgraciadamente, no quiera decir que no sean utilizados.

Pero en muchas ocasiones no es el error medio la medida importante. A menudo uno quiere detectar outliers: una variable de interés tiene un comportamiento normal la mayor parte del tiempo pero en ocasiones, en raras ocasiones, cuando supera un umbral, produce catástrofes. Dejarse guiar por el RMSE (o similares) produciría una peligrosa sensación de seguridad: detectaría la normalidad; la anormalidad, lo interesante, le resultaría inasequible.

Un ejemplo de hoy mismo. Un modelo para predecir irradiación solar. Si esta se sitúa por debajo de un determinado umbral, se rompen cosas. El modelo es bueno: ¡casi siempre acierta! Pero esa bondad significa simplemente que ha aprendido que en verano pega el sol. Un viaje para el que sobran alforjas.

(Y mientras escribo esto se me ocurre especular sobre la conveniencia de usar SVM en estos casos).