Para esto que me da de comer no vale XGBoost

Los físicos crean modelos teóricos. Los economistas crean modelos teóricos. Los sicólogos crean modelos teóricos. Todo el mundo crea modelos teóricos: epidemiólogos, sismólogos, etc.

Estos modelos teóricos se reducen, una vez limpios de la literatura que los envuelve, a ecuaciones que admiten parámetros (sí, esas letras griegas). Frecuentemente, esos parámetros tienen un significado concreto: son parámetros físicos (con sus unidades, etc.), son interpretables como el grado de influencia de factores sobre los fenómenos de interés, etc. Frecuentemente, casi toda la ciencia de la cosa reside en ellos.

Pero esos coeficientes y parámetros raramente se deducen en las ciencias experimentales. No son como \pi o e. Al contrario, se miden al enfrentar los modelos con datos (experimentales en el mejor de los casos, observacionales si no queda otro remedio).

(De hecho, tal es el origen de las -metrías: econo-, sico-, etc.)

Algunos nos ganamos el pan últimamente (no, no teorizo; no, no soy un filósofo; me limito a extender lo que indico en la descripción de mis facturas) en calcular esos parámetros y hacer inferencia sobre los mismos: nos dan ecuaciones, nos dan datos y nos preguntan sobre, p.e., \gamma y su distribución.

Pero no sé para qué demonios me sirve el dichoso XGBoost para eso. No sé en qué página de esos libros famosos de ciencia de datos hay referencia alguna a ese problema. Aún no he visto la primera competición de Kaggle que trate el asunto.

3 comentarios sobre “Para esto que me da de comer no vale XGBoost

  1. Marco Anchiraico 17 octubre, 2017 15:01

    Buen día profesor, efectivamente este algoritmo no resuelve el problema de comprensión de los diferentes fenómenos que se buscan explicar, sin embargo no hay que negar su potencia en velocidad y precisión cuando lo único que interese sea esto. En particular lo uso como método de selección de variables y cuando tenga la posibilidad de volver a generar el modelo en muy corto tiempo.

  2. Spike 19 octubre, 2017 16:00

    Y se abre un nuevo debate. ¿Está bien que en el Credit Scoring el objetivo siempre sea calcular el peso de cada variable a través de los parámetros de una Regresión Logística? ¿O se debería uno obsesionar por la identificación cada vez más precisa de los morosos? (para esto último serviría muy bien XGBoost, no tanto para lo primero).

    Lo anterior es una falsa dicotomía, pero es un ejemplo de lo que podría tener en la cabeza un novicio al leer el post, pensando que los modelos psicométricos/econométricos muy posiblemente están ya pasados de moda (léase, se construyeron alguna vez y no se han vuelto a repensar). Sobre estimación de parámetros hay bastante material Bayesiano, pero no debería estar comentando esto en la web de uno de los pocos bayesian-data-scientists que hay en el planeta.

  3. Carlos J. Gil Bellosta 19 octubre, 2017 17:21

    Abstractamente, XGBoost sería superior en ese contexto. Ahora bien, hay reguladores, hay tradiciones, hay necesidades (legales) de explicar una denegación de crédito, ¡hay tantas consideraciones!

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">