GBM (III): Más allá de las pérdidas cuadráticas

2016-6-24 (Última modificación: 2016-6-24)

Liberados del estrecho ámbito de nuestra original mentira sugerente gracias a la relación que descubrimos entre residuos y gradientes cuando las pérdidas son cuadráticas podemos adentrarnos en ámbitos más extensos.

Lo que discutimos del gradiente tiene una interpretación fácilmente inteligible en el caso de pérdidas cuadráticas. Pero ni la pérdida de interpretabilidad nos impide extender el razonamiento de la entrada anterior a funciones de pérdida distintas de la cuadrática siempre que podamos calcular un gradiente.

En el artículo Gradient Boosting Machines, de G. Ridgeway se enumeran siete tipos de funciones de pérdida (con sus correspondientes gradientes) a los cuales aplicarles el cuento de esta serie de entradas:

La que llama gaussiana y que todos conocemos como cuadrática.
La que llama AdaBoost y que merece una entrada por sí misma: procede de los tiempos en que se conocía un algoritmo que funcionaba relativamente bien y nadie tenía muy claro el motivo hasta que se conoció que venía a ser lo que cuento por acá.
La de Bernoulli, para problemas de clasificación binaria.
La de Laplace, que es la gaussiana pero con valores absolutos en lugar de cuadrados.
La de Poisson, para conteos.
La del modelo de riesgos proporcionales de Cox, para datos de supervivencia.
Y una última para la regresión por cuantiles.

Y es esto (si omitimos, por el momento, todo lo relativo al stochastic gradient boosting algorithm, que queda para otra ocasión) lo que encierran los GBMs y la razón, en última instancia, de su éxito.