Sobre el error de generalización (porque a veces se nos olvida)

Al construir modelos, queremos minimizar

l(\theta) = \int L(y, f_\theta(x)) \, dP(x,y),

donde $L$ es una determinada función de pérdida (y no, no me refiero exclusivamente a la que tiene un numerilo 2). Pero como de P(x,y) solo conocemos una muestra (x_i, y_i) (dejadme aprovechar la ocasión para utilizar una de mis palabras favoritas: P(x,y) es incognoscible), hacemos uso de la aproximación

\int f(x) \, dP(x) \approx \frac{1}{N} \sum f(x_i)

para plantear en su lugar la minimización de

l(\theta) \approx \frac{1}{N} \sum L(y_i, f_\theta(x_i)).

Casi todo lo demás (validación cruzada, etc.), recuérdese, son trucos más o menos ingeniosos para estimar la diferencia

 l(\hat{\theta}) - \frac{1}{N} \sum L(y_i, f_{\hat{\theta}}(x_i)).

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.