¿Por qué el optimizador de una red neuronal no se va al carajo (como suelen L-BFGS-B y similares)?

Vale, admito que no funciona siempre. Pero una manera de distinguir a un matemático de un ingeniero es por una casi imperceptible pausa que los primeros realizan antes de pronunciar optimización. Un matemático nunca conjuga el verbo optimizar en vano.

[Una vez, hace tiempo, movido por una mezcla de paternalismo y maldad, delegué un subproblema que incluía el fatídico optim de R en una ingeniera. Aún le debe doler el asunto.]

Buscar el mínimo de una función de 4 o 5 parámetros es el mayor enemigo de tu vida social. Sin embargo, ¿por qué no parece ser tal el caso con las redes neuronales?

Frente a la cuestión

Why the type of non-convex optimization that needs to be done when training deep neural nets seems to work reliably?

Yan LeCun respondió

It’s hard to build a box [meaning: a local minimum] in 100 million dimensions.

Es una hipótesis. No hay demostración. Pero tal vez por ahí vayan los tiros.

Un comentario sobre “¿Por qué el optimizador de una red neuronal no se va al carajo (como suelen L-BFGS-B y similares)?

  1. Carroll 27 mayo, 2020 14:24

    Creo que la cuestión es que realmente en una red neuronal no buscas mínimos locales (ni siquiera los habrá, en una superficie n-dimensional aleatoria, seguramente todo serán puntos de silla). Realmente es un proceso de búsqueda en la que te queda con un valor localmente «bajo».

Los comentarios están desabilitados.