¿Vale realmente el "bootstrap" para comparar modelos?

Es una pregunta legítima —en el sentido de que ignoro la respuesta— que tengo. Para plantearla en sus debidos términos:

Contexto:

Tenemos modelos y queremos compararlos. Queremos que funcionen en el universo, pero solo disponemos de él una muestra.

Acto 1:

Para desatascar el nudo lógico, recurrimos a técnicas como:

  • Entrenamiento y validación,j
  • jackknife y sobre todo,
  • su popular evolución, la validación cruzada.

Todas ellas bien sabidas y discutidas en todos los manuales.

Acto 2:

Llega Frank Harrell y dice que la validación cruzada, a pesar de su popularidad, es inferior a otra técnica más arraigada en la teoría estadística clásica, el bootstrap. (Porque, recuérdese, el principio director del bootstrap es que muestras con reemplazamiento de una muestra operan —¿casi?— como muestras independientes del universo). El bootsrap para la comparación de modelos viene en tres sabores, cuando menos:

  • El básico: se realizan muestreos con remplazamiento de los datos originales, se construye el modelo sobre ellos y se evalúa el error en el original.
  • El de caret: como el anterior, pero se evalúa el error usando no el conjunto de datos original sino solo aquellas observaciones del original que no pasan a la muestra.
  • El avanzado, propuesto también por Harrell y que trata de medir el optimismo de evaluar el error en la muestra de entrenamiento mediante el algoritmo descrito, entre otros sitios, aquí.

Acto 3:

Tirios y troyanos comienzan a publicar sobre la superioridad de unos y otros (más que por cuestiones de sesgo, por cuestiones de estabilidad, da la impresión). Los pro-bootstrap publican, por ejemplo, esto. Los pro validación cruzada, cosas como esta.

Inconclusión

No tengo ni idea de si lo del bootstrap es una boutade de don Frank (tipo el 11M fue cosa de ETA). Me gustaría que no fuese así, me gustaría ir y poder decir: eso de la validación cruzada es una técnica ad hoc que inventaron unos advenedizos, pero quienes sabemos usamos bootstrap porque para eso hemos estudiao. Pero me da que…

Así que, ¿me saca alguien de mi inconclusión?