Redundancias (o por qué empeñarnos en tener tantos datos cuando con una fracción sobra)

[Esta entrada no contiene ni respuestas ni, tan siquiera, buenas preguntas. Solo vuelco en ella ideas más o menos inconexas que me rondan la cabeza. Tal vez alguien sepa reformularlas mejor, plantear la pregunta concreta que exige el asunto y, con suerte, responderla con claridad y distinción.]

Mi proyecto trata de la estimación de los parámetros que rigen una determinada curva (altamente no lineal) de la que se tienen N observaciones en el tiempo. Igual que tengo N podría tener 2N o N/2.

Pero, ¿cuál es el número efectivo de observaciones?

Si mis datos fuesen una línea, con dos observaciones (sin ruido) bastaría. Si fuese una circunferencia, con tres habría bastantes. El resto son deducibles y aportan poco.

Si mis datos fuesen de temperatura ambiental, podría tener datos horarios. Pero también cada minuto. Y o cada segundo. Podría fabricar y presumir de tener big data. Pero solo almacenaría redundancias.

Si las observaciones son independientes (contexto tipo: regresión lineal), está bien contar con más datos (aunque su importancia decrece marginalmente). Cuando no lo son, las cosas cambian. Por ejemplo, el teorema de Nyquist establece un límite a partir del cual observaciones adicionales están de más (en ciertos contextos).

Y nada más.

2 comentarios sobre “Redundancias (o por qué empeñarnos en tener tantos datos cuando con una fracción sobra)

  1. Iñaki 27 abril, 2018 10:38

    Diría que la clave es el ruido: cuántas observaciones hacen falta para caracterizar el ruido.

  2. emilio 27 abril, 2018 14:59

    Me acabo de acordar de un dicho popular que creo que se aplica bastante en ciertos ambientes: Caballo grande, ande o no ande.
    De vez en cuando es bueno recordar que nuestros ancestros, contando sólo con los dedos o con piedrecitas para calcular, ¡crearon imperios y sentaron las bases de nuestra civilización!

Los comentarios están desabilitados.