Sobre la economía del lenguaje

De acuerdo con una observación de Zipf (y supongo que de muchos otros y que no hay que confundir con su ley), la longitud de las palabras más corrientes es menor que las que se usan menos frecuentemente.

Un estudio reciente, Word lengths are optimized for efficient communication, matiza esa observación: la cantidad de información contenida en una palabra predice mejor la longitud de las palabras que la frecuencia de aparición pura. En una comparación entre diversos idiomas europeos, parece manifestarse que palabras que aportan poca información son breves; las que aportan mucha, más largas.

La cantidad de información que transmite una palabra depende del contexto. En un contexto c, la cantidad de información que contiene una palabra w es -log P( w | c), el logaritmo de la probabilidad de que w ocurra en dicho contexto. La cantidad global de información que transmite una palabra es la media de dicha cantidad a través de los contextos en que aparece w, es decir

-\sum_c P( c | w ) \log P( w | c ),

cantidad que puede aproximarse por

-1/N \sum_{i = 1}^N \log P( w | c_i ).

Para calcular P( w | c_i ) pueden utilizarse varias técnicas. Por ejemplo, secuencias de palabras (o contextos) tales como «quiero beber…» condicionan la probabilidad del término subsiguiente. Y «cerveza», «leche» o «agua» será menos informativo (es decir, más probable) que «hidromiel» o «electrones».

De alguna manera, los hablantes tienden a mantener constante la tasa de transmisión de información acortando lo predecible y haciendo hincapié (y gastando tiempo y sílabas) en los puntos más informativos del discurso.

Y ahora entro en terreno que me es menos propio: la fijación de la sintaxis desde la creación de las primeras gramáticas, la difusión de los libros, la educación, etc. han mantenido el lenguaje relativamente invariable a través de los últimos siglos: los mayores impedimentos para entender textos de hace 400 años son puramente léxicos. Pero eso no ha impedido que hayan evolucionado los contextos y, por lo tanto, la regla que asocia cantidad de información y longitud de palabras.

¿Será el lenguaje que se utiliza en las redes sociales heraldo de movimientos de reajuste tectónico en el lenguaje que lo alinee con el nuevo equilibrio entre las palabras de antaño y los cambios de cantidad de información que han traído los nuevos tiempos?