Todo está en los libros (en español)

Hace unos días publicábamos en este blog una entrada en la que dábamos cuenta de la aplicación de la estadística, y de forma más general el uso de diferentes tecnologías, en el análisis de la evolución de diferentes palabras. En ese estudio, centrado en palabras en inglés, se utilizaba una de las colecciones masivas de datos que ha puesto disponible Google para la comunidad.

Estos datos están agrupados de una forma muy interesante de tal forma que un estudio posterior sobre la evolución de la aparición de diferentes palabras en todos los textos escaneados se simplifica de manera notable.

Aunque está siendo fuente de cierta polémica, lo novedad que supone este tipo de estudios estriba en la gran mezcla de disciplinas y conocimientos pueden utilizarse en su análisis. Por un lado el estricto análisis estadístico de una serie temporal, por otro la mezcla entre la explicación histórica y sociológica que se puede asociar a la mayor o menor aparición de un término en la historia de la literatura.

Lo positivo, como otros han reflejado es que se pone sobre la mesa un enfoque adicional a la tradicional explicación e investigación histórica-sociológica del que todas las disciplinas salen enriquecidas.

Centrándonos en la novedad que puede aportar esta entrada, decir que he analizado de forma equivalente aquel estudio inglés, la evolución de ciertas palabras en español.  Los resultados arrojan ciertas sorpresas, y abren muchas incógnitas, algunas pueden explicarse de una forma inmediata, otras en cambio necesitarán de un mayor estudio.

Sin más dilación, estas son algunas de las perlas….

Evolución del término ciencia

Evolución del término "ciencia"

Evolución del término "civil"

Evolución del término "sexo"

Evolución del término "guerra"

Evolución del término "dios"

Evolución del término "igualdad"

Evolución del término "dinero"

Nota: Google-Labs también ha puesto disponible un visualizador en tiempo-real con el mismo fin. A mi me gustó hacerlo por mi mismo.

4 comentarios sobre “Todo está en los libros (en español)

  1. datanalytics 24 diciembre, 2010 11:43

    ¿Qué representa el eje y? ¿No has pensado en suavizar la distribución de las frecuencias para que las curvas no sean tan irregulares en siglos pasados?

    ¡Gracias por el aporte! (Y que sepas que me da envidia constatar que tienes tanto tiempo para estas cosas).

  2. QualityExcellence 24 diciembre, 2010 15:33

    El eje y representa el número de veces que aparece una palabra entre el número de libros en las que aparecen. Ambos datos aparecen como columnas independientes en el dataset.
    Pensé en aplicar un «loess», justamente para suavizar la curva, pero me pareció más «real» dejarlo tal cual.

    Bueno, el bajarme los datos fue fácil, utilizando lo mismo que uso para bajar las películas, libros. Y lo de meterme con esto, fue ayer en el trabajo cuando lo hice en R, para hoy subir el post… Pero vaya, para hoy descubrir que estos de Google además de los datos, han creado una herramienta para visualizar estas evoluciones de forma interactiva, y con varias palabras. Lo mío es más manual (al menos en la parte de extracción). Uso Windows y para hacerlo tuve que instalarme un Cygwin…

    La verdad es que donde más tiempo pierdo es aquí:
    http://www.cepade.es/formacion/vcurso.asp?nombre=DAS

Los comentarios están desabilitados.