¿Por qué el optimizador de una red neuronal no se va al carajo (como suelen L-BFGS-B y similares)?

Vale, admito que no funciona siempre. Pero una manera de distinguir a un matemático de un ingeniero es por una casi imperceptible pausa que los primeros realizan antes de pronunciar optimización. Un matemático nunca conjuga el verbo optimizar en vano.

[Una vez, hace tiempo, movido por una mezcla de paternalismo y maldad, delegué un subproblema que incluía el fatídico optim de R en una ingeniera. Aún le debe doler el asunto.]

Buscar el mínimo de una función de 4 o 5 parámetros es el mayor enemigo de tu vida social. Sin embargo, ¿por qué no parece ser tal el caso con las redes neuronales?

Frente a la cuestión

Why the type of non-convex optimization that needs to be done when training deep neural nets seems to work reliably?

Yan LeCun respondió

It’s hard to build a box [meaning: a local minimum] in 100 million dimensions.

Es una hipótesis. No hay demostración. Pero tal vez por ahí vayan los tiros.

Un comentario sobre “¿Por qué el optimizador de una red neuronal no se va al carajo (como suelen L-BFGS-B y similares)?

  1. Carroll 27 mayo, 2020 14:24

    Creo que la cuestión es que realmente en una red neuronal no buscas mínimos locales (ni siquiera los habrá, en una superficie n-dimensional aleatoria, seguramente todo serán puntos de silla). Realmente es un proceso de búsqueda en la que te queda con un valor localmente «bajo».

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.