El principio de información

Tramontando el recetariado, llegamos a los principios. Y el más útil de todos ellos es el de la información (o cantidad de información).

(Sí, de un tiempo a esta parte busco la palabra información por doquier y presto mucha atención a los párrafos que la encierran; anoche, por ejemplo, encontré un capitulito titulado The Value of Perfect Information que vale más que todo Schubert; claro, que Schubert todavía cumple la función de proporcionar seudoplacer intelectual a mentes blandas y refractarias al concepto del valor de la información perfecta).

claudeshannon

En ciencia de datos no interesan los datos en sí sino los fenómenos y la información que podemos extraer de ellos. Los datos son solo una de sus manifestaciones. Pero sabemos que pueden ser malos. O mejores. Siempre perfectibles. El punto de partida de la ciencia de datos (salvo en ese portal donde se propone una versión puerilizada de la ciencia de datos; Kaggle, dizque se llama) no son los datos sino el fenómeno que se quiere estudiar.

Reitero: una parte sustancial y muy relevante de la ciencia de datos es recopilar la mayor cantidad posible de información sobre un fenómeno en forma de… datos.

(La otra gran vertiente de la ciencia de datos consiste en crear funciones (modelos) que absorban esa información; que en lugar de representarse en forma de filas y columnas, se manifieste en forma de numeritos que operen como, por ejemplo, coeficientes).

¿Qué principio rige el proceso de creación de datos? El de la información, necesariamente. Cuántos, cuáles y cómo son preguntas que uno se formula al recoger datos que ha de responder el principio de la cantidad de información (tal vez acompañado con el de los rendimientos decrecientes).

(Pero no os preocupéis: Kaggle os lo da hecho en forma de csv. Os lo(s) bajáis y ya).

Supongamos que tenemos ya datos (no necesariamente tabulares) X. X puede ser una tabla (como es bastante típico) pero también otra cosa. Entonces uno quiere realizar operaciones (transformaciones) sobre ellos. A partir de X, podemos construir T(X), lo datos originales transformados por T.

¿Qué sucede con la cantidad de información?

Pues nada si la transformación es reversible. Por ejemplo, si T es un cambio de unidades o implica tomar logaritmos en una columna de números positivos (y omitidos los problemas de precisión numérica).

¿Y si no es reversible?

Pues se pierde información. Necesariamente. Se rescata algo; el resto, se pierde.

Pero, ¿por qué podríamos querer perder información?

Por ejemplo, porque una de nuestras columnas se llama cod_postal, que es categórica (insisto para alguien que ignora que la apelo: ¡es categórica!) y tiene muchos niveles. Por cuestiones operativas, puede plantearse la conveniencia de transformarla de alguna manera. Hay transformaciones que preservan la cantidad de información (la de los dummies); otras no.

¿Voy a seguir escribiendo sobre esto?

Sí, pero no hoy. Tengo en mente un ejemplo concreto que discutir con cierto detalle (detalle en un sentido impresionista del término) pero estoy cansado de teclear.

2 comentarios sobre “El principio de información

  1. Daniel 20 octubre, 2016 14:11

    Por poner un ejemplo del valor de la información. El saber qué números saldrán en la primitiva es una información muy valiosa, la cantidad de información está relacionada con el número de casos posibles que pueden ocurrir, a mayor número de posibilidades se requiere mayor cantidad de información. Muchos algoritmos de aprendizaje se basan en métodos que en cada paso optar por la rama que proporciona mayor cantidad de información en su aplicación inmediata. Para triunfar sería bueno tener la información sobre los números de la próxima primitiva, pero quizás dicha información no sea suficiente porque luego hay que saber qué hacer con tanto dinero y eso es otro problema que require grandes cantidades de información (¿cómo invertirlo o disfrutarlo?).

    Un saludo.

  2. Jose 21 octubre, 2016 0:12

    Después de tirarme años peleando con montañas y montañas de «cosas» en bruto para lograr al final un CSV que permita jugar (el parto de los montes lo llamo) , el 90% del tiempo luchando con auténtica basura, a mí kaggle siempre me pareció un divertimento para «señoritos» y gente aburrida que coge el rábano por las hojas, a ser posible sin mancharse las manos.

    Grato saber que no soy el único .

    Y si, el código postal es categórico.

Los comentarios están desabilitados.