Mezclas y regularización

Cuando mezclas agua y tierra obtienes barro, una sustancia que comparte propiedades de sus ingredientes. Eso lo tenía muy claro de pequeño. Lo que en esa época me sorprendió mucho es que el agua fuese una mezcla de oxígeno e hidrógeno: ¡era muy distinta de sus componentes!

Porque no era una mezcla, obviamente. Era una combinación. En una combinación emergen propiedades inesperadas. Las mezclas, sin embargo, son más previsibles.

Pensaba en esto mientras escribía sobre la regularización de modelos (ridge, lasso y todas esas cosas). La regularización puede interpretarse como una mezcla de dos modelos: el original y el nulo (con todos los coeficientes iguales a cero). El modelo original tiene poco sesgo y mucha varianza; el nulo, prácticamente nada de varianza y muchísimo sesgo. El regularizado queda a medio camino. El original tiene varios, tal vez muchos, grados de libertad mientras que el nulo, ninguno (¿o uno?); puede considerarse que el número de grados de libertad del regularizado queda a medio camino.

Así que ridge, lasso, elastic net y otros (puedo incluir aquí a la vetusta regresión stepwise, entendida de nuevo y cometiendo un craso abuso del lenguaje como un promedio entre el modelo saturado y el nulo) son simplemente técnicas para promediar modelos. Mejores o peores, con sus ventajas y sus inconvenientes, pero modos al fin y al cabo de promediar dos extremos.

Para terminar, un pequeño ejercicio mental: ¿qué si regularizas hacia un modelo distinto del nulo? Me refiero a lo siguiente (y, por fijar ideas, utilizaré la regresión ridge): tenemos un modelo lineal con coeficientes $\latex \beta_j$; entonces la regresión ridge es el resultado de minimizar la consabida expresión

\sum_i (y_i - \beta_0 + \sum_j \beta_j x_{ij})^2 + \lambda \sum_j \beta_j^2.

El término de regularización, $latex \lambda \sum_j \beta_j^2 también puede escribirse de la forma

\lambda \sum_j (\beta_j - b_j)^2

donde los valores b_j = 0 corresponden a los coeficientes del modelo nulo. ¿Pero qué si se usa como modelo nulo otro en el que no ocurra necesariamente b_j = 0? ¿Qué si nuestra priori es un modelo no nulo? La interpretación de la regularización como mezcla de modelos seguiría en pie, pero todas las consideraciones acerca de grados de libertad, del bias/variance trade-off, etc. se caerían.

Nota final: todo lo discutido aquí es un corolario tonto de la reformulación bayesiana de la cuestión. Pero esa es otra historia.

2 comentarios sobre “Mezclas y regularización

  1. Iñaki 13 marzo, 2019 19:39

    LASSO se puede interpretar como que los coeficientes tienen una priori de Laplace; Ridge, como que la priori es gaussiana. Pregunta: ¿se puede ajustar el término de regularización para conseguir cualquier priori? ¿Una asimétrica?

  2. Carlos J. Gil Bellosta 15 marzo, 2019 17:31

    Supongo que lo que dices es cierto solo si lasso/rigde se aplica a la regresión lineal (y no a GLMs, como logísticas), pero creo que hecha la salvedad… En el fondo, el término de “regularización” es una distancia (de cero a los coeficientes). Y podrías reemplazar esa distancia por otra (a otro punto), asimétrica (a lo Mahalonobis) u otras “bolas” (para L2, las bolas son esferas; para L1, “rombos”; pero podrías probar con otras formas convexas). En la formulación bayesiana se ve todo más claro, aunque no sé de qué manera podría uno obtener diferencias cualitativas tan claras como las que median entre lasso y ridge modificando esas cosas. O qué sentido podrían llegar a tener.
    En esta entrada, sin embargo, he tratado de abstraer la técnica concreta del hecho de que lo que se busca es un modelo intermedio que participa de las propiedades de los dos considerados en los extremos. Esa formulación cubre, de hecho, otros tipos de promedios que se plantean sin término de regularización (como el stepwise). De hecho, podría incluso incorporar ciertos tipos de modelos mixtos, que pueden interpretarse como medias entre los de “total pooling” y los de “no pooling”.

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.