El RMSE es Dios y XGBoost, su profeta

De los últimos foros de científicos de datos a los que he asistido, de las últimas conversaciones con científicos de datos que he mantenido, he salido con una gran duda: ¿soy yo el que tiende a juntarse con ellos o es que hay una plaga de talibanes del RMSE es Dios y XGBoost, su profeta?

herejes_hoguera

Lejos está ese lema simplificador de los principios que me mueven a escribir estas páginas. Por lo que, anuncio, estoy arrejuntando razones y papelotes con los que tratar de arrancar un movimiento herético.

4 comentarios sobre “El RMSE es Dios y XGBoost, su profeta

  1. Davidi 13 octubre, 2016 9:25

    Aquí otro convencido («convertido» usando tu analogía) al xgboost como «weapon of math destruction», pero yo soy de usar el AUC del conjunto de datos de validación (tiene muchas otras métricas).

    Tampoco es que sólo use xgboost, pero vamos que en los últimos n modelos que he usado de los m modelos que he utilizado siempre ha dado mejor AUC. Y ojo que igual luego me he quedado con otro modelo de los peores por razones de negocio (pero sacando las mejores variables con el «in-nombrable» ). Otras bondades es que trata con categóricas con muchas categorías, con datos perdidos y que tiene una eficiente implementación.

    Me intriga tu recelo… si al pobre Tong He le hizo de chairman el bueno de Trevor Hastie (en User R 2016), si se han llevado el premio John M Chambers… vas a renegar de estos?

    Un saludo de uno de tus fieles seguidores, ánimo con el blog.

  2. Carlos J. Gil Bellosta 13 octubre, 2016 11:28

    No, no es un recelo hacia los GBM (en sus distintas implementaciones, incluido XGBoost). Lo que cuestiono es la fe con la que muchos lo veneran. Confundiendo en la práctica bueno (que nadie discute) con, prácticamente, único.

    Y volviendo a lo de fe, cuestiono lo ciega que a menudo es. ¿Estamos confundiendo la ciencia de datos con unos friquis que saben correr un script (llamado XGBoost) y poco más? ¿Saben (ahí va lo de ciego) lo que ocurre en su recocina? Peor aún: ¿estamos reduciendo la ciencia de datos al conjunto de problemas susceptibles de ser resueltos con XGBoost? Obviamente, la respuesta es no. Pero si te fijas en lo que se cuenta por ahí sobre ciencia de datos, pareciere lo contrario.

  3. Davidi 13 octubre, 2016 12:26

    Ok, no te había entendido bien, está claro esto son muchas más cosas que un sólo método o como bien apuntas cierta implementación del mismo. Puede que Kaggle tenga un poco la culpa, al fin y al cabo sus competiciones van de eso, de minimizar o maximizar cierta métrica hasta el sexto decimal (por decir algo)…

    Por ayudarte algo en tu batalla, a veces lo clientes quieren algo que se pueda interpretar con facilidad… y alguna vez usando paquetes de rebalanceo de datos como ROSE me ha dado un AUC de 1 en calibración (casi con cualquier parametrización) y 0.5 en validación (vamos que de poco servia).

    Tu batalla me recuerda hace unos años que estaban los randomForest muy como referentes, y un profesor que ejercía por Paris argumentaba que en determinados problemas un modelo lineal daba mejores resultados…

    Por otro lado su mejor rendimiento depende de ese script para calibrarlo, y de eso hay hasta metapaquetes como mlr, también tiene su gracia.

    En fin, gracias por aclarme

  4. joaquin 17 octubre, 2016 13:53

    Creo que kaggle.com tiene algo de culpa. El éxito de este algoritmo en las competiciones de kaggle es aplastante. Y me declaro culpable: todavía no sé por qué este algoritmo es tan eficiente.

Los comentarios están desabilitados.