Advertencias sobre el uso de los n-gramas de Google

2017-11-14 (Última modificación: 2017-11-14)

Dudaba en si dedicar la entrada a popularizar los n-gramas de Google en lugar de advertir sobre sus sesgos. Pero, habida cuenta de que lo primero sería llover sobre mojado (véase esto o esto), me he decantado por lo segundo.

El primer problema es el del reconocimiento de caracteres. Aunque la tecnología mejorará, aún se encuentra, p.e., cami6n en lugar de camión.

El fundamental, no obstante, es que los libros aparecen una única vez independientemente de su popularidad. Esto plantea problemas para medir el impacto cultural de determinados términos: su presencia o ausencia en los n-gramas puede no encontrar correlato en la calle.

Y una concreción del anterior es la sobreabundancia de literatura científica y técnica que parece encontrarse en los corpus. Las publicaciones de ese tipo son numerosas pero de tirada corta e impacto (cultural, si se quiere) limitado. Este fenómeno, no obstante, podría encontrarse más acusadamente en la versión inglesa que en la española de los n-gramas.

Los dos últimos problemas (y otras cuestiones interesantes sobre la evolución de las frecuencias de determinadas palabras por décadas) se explican detalladamente en Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution, de lectura recomendada.

Nótese, además, que el artículo anterior estudia la versión inglesa de los n-gramas de Google. Esos de vosotros que andéis detrás de proyectos por eso de publicar, etc. para medrar en lo académico, con trasladar lo trasladable a la española,…