Sobre los coeficientes de los GLM en Scikit-learn

Pensé que ya había escrito sobre el asunto porque tropecé con él en un proyecto hace un tiempo. Pero mi menoria se había confundido con otra entrada, Sobre la peculiarisima implementacion del modelo lineal en (pseudo-)Scikit-learn, donde se discute, precisamente, un problema similar si se lo mira de cierta manera o diametralmente opuesto si se ve con otra perspectiva.

Allí el problema era que Scikit-learn gestionaba muy sui generis el insidioso problema de la colinealidad. Precisamente, porque utiliza un optimizador ad hoc y no estándar para ajustar el modelo lineal.

El problema con la logística es el contrario: hipercorrige subrepticiamente la teoría clásica de modo que uno espera GLM pero obtiene la regularización ridge. Que no está mal, pero que exige, por ejemplo, cierta estandarización previa de las variables: todas deberían tener un rango de variabilidad similar porque ridge penaliza las nominalmente más grandes.

Más detalles, donde Gelman.

Un comentario sobre “Sobre los coeficientes de los GLM en Scikit-learn

  1. José Luis Cañadas 4 diciembre, 2019 16:11

    A mi no me parece mal. Lo que me parece mal es que sospecho que la «mayoría» de los usuarios de los glm de sklearn no tienen ni idea ni siquiera de lo que es regularización ridge. Reconozco que mi opinión está sesgada debido al hecho de entrevistar a muchos ¿científicos de datos ? bisoños

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.