Las palabras esenciales del diccionario

Me he entretenido en los últimos tiempos tratando de responder una pregunta que, sin inquietarme, no dejaba de despertar mi curiosidad.

En la escuela nos enseñaron a definir palabras. Una de las primeras reglas de aquel juego era que el término definido no podía usarse en la definición: casa no se puede utilizar para definir casa. Los niños lo entendíamos. Sin embargo, los mayores hacían trampa: en el DRAE, construir se define en términos de edificar y edificar, en términos de construir.

Efectivamente, cójase el diccionario. El DRAE, por antonomasia. Búsquese una palabra. Cualquiera. En su definición aparecen otras. Búsquense estas a su vez. Y continúese recursivamente. Pueden pasar dos cosas:

  • Volver a tropezar con la palabra original.
  • No volver nunca a tropezar con ella.

Supongo que esas palabras que aparecen en los ciclos tienen una importancia léxica distinta de las del resto. Uno podría llamarlas palabras axiomáticas, palabras cuyo significado debería conocer el hablante antes de consultar la herramienta que define, es decir, el diccionario.

Quizás uno pueda contemplar la dicusión anterior de manera euclídea. Cada definición vendría a ser un teorema de la geometría euclidiana. La demostración de un teorema puede remitir a otros teoremas previos. Pero no indefinidamente: existen cinco postulados que se dan por buenos sin demostración, que se suponen ciertos de antemano.

Igualmente, en el diccionario, uno podría preguntarse cuáles son esos términos que se supone debieran darse por sabidos y que un diccionario euclídeo debiera abstenerse de definir. O, al menos, marcar explícitamente como tales.

Para conseguir mi objetivo he hecho lo siguiente:

  1. Descargar la lista de palabras definidas en el DRAE, disponibles aquí y aquí.
  2. Consultar (programáticamente, por supuesto) en el DRAE cada una de ellas.
  3. Buscar la raíz de los términos que aparecen en la definición usando mi lematizador.
  4. Crear una tabla con tres columnas:
    • lema
    • raíz del término que aparece en la definición
    • número de veces que aparece en la definición

Luego he analizado este conjunto de datos utilizando métodos de análisis de redes sociales. En efecto, considero que las palabras del diccionario, unas 88000, forman una red social en la que A es amiga de B si A aparece en la definición de B.

Y eso me permite responder una serie de preguntas. Por ejemplo, ¿cuántas palabras carecen de amigos? Es decir, ¿cuántas no aparecen en la definición de ninguna otra? Pues de las 87654 palabras del DRAE, son, exactamente, 51506, es decir, un 58.76 %. Incluyen desde a-, aarónico, aaronita, aba, ababa y ababillarse hasta zurumbo, zurupeto, zutanejo, zutuhil, zuzar y zuzo.

Las restantes 36148 palabras se usan en las definiciones de otras y van desde a, ababol, abacá, abacal, abacería, y ábaco hasta zurribanda, zurriburri, zurrón, zutano, zutujil y zuzón.

El siguiente paso del análisis consiste en eliminar aquellos términos que sólo entran en la definición de términos sin amigos o, recursivamente, en la definición de términos eliminados en el paso anterior. Por ejemplo, si A es un término sin amigos y B es un término que se usa en la definición de A y no en ningún otro, lo filtraría en este paso. Tras este filtrado, quedan 24683 términos, un 28.15 % de los términos originales. Seguro que Euclides pensaría que demasiados.

Los 11465 términos que se caen van desde ababol, abacal, abada, abajar, abakuá y aballar hasta zurriago, zurribanda, zurriburri, zutano, zutujil y zuzón. Encuentro en la lista términos como tridimensional, tropecientos, sobreexplotar, rutherfordio, presuntamente y perversión junto a otros como zangolotear, podrigorio, segueta, tolmera o tósigo, de cuya existencia a cabo de tener noticia.

De entre los restantes 24683 términos encontramos dos tipos. Por un lado, 197 familias aisladas de términos que son amigos entre sí, pero que no son amigos de otros términos. Por ejemplo, forman parte de estas familias parejas como violonchelista y violonchelo o triplas como tabulador, tabuladora y tabular.

Pero existe una familia de términos que comprende 24331 de ellos, un 27.75 % del total, que forma un clúster completo y que se extiende desde a, abacá, abacería, ábaco, abad y abadejo hasta zurdo, zuro, zurra, zurrador, zurrar y zurrón.

Quiero dejar constancia de que mis números son aproximados. Es posible que haya errores y, en efecto, he detectado algunos en el lematizador. Por ejemplo, este ha asignado a «nota» (musical) la raíz «notar» (verbo) en alguna ocasión. Etc.

No obstante, pienso que el número de términos en las definiciones es excesivo. ¿Debería la Academia esforzarse por reducir su número, por tratar de que la lista de palabras axiomáticas fuese más corta? Puede. Según algunos expertos, el número de palabras (en inglés) que utiliza activamente un hablante medio ronda las 20.000 y conoce (pasivamente) unas 40.000. Y estas cifras estarían dentro de los órdenes de magnitud que indico para el DRAE.

¿Cuál será, me pregunto, la opinión de mis lectores?

7 comentarios sobre “Las palabras esenciales del diccionario

  1. Marcial 13 marzo, 2012 11:56

    Hola.
    ¿Cómo has realizado el siguiente paso: «he analizado este conjunto de datos utilizando métodos de análisis de redes sociales»?
    ¿Has utilizado alguna aplicación o software específicos?

    Muchas gracias,

    Marcial

  2. datanalytics 13 marzo, 2012 12:11

    @Marcial Con R y el paquete igraph. Traté de pintar la red social con gephi pero se me tostó la máquina…

  3. Diego 13 marzo, 2012 19:39

    Buenisimo el trabajo! Como has hecho para consultar las palabras en el DRAE? Saludos!!

  4. datanalytics 13 marzo, 2012 21:14

    @Diego No es complicado. Tal vez debería publicar el código, aunque no está en condiciones de ser enseñado.

    Para consultar el DRAE, sólo hay que componer la URL adecuada, p.e., bajarse el contenido y _parsearlo_. Todo eso en un bucle que corre 88k veces. ¡Hay que tener un poco de paciencia!

  5. Ender Muab'Dib 16 marzo, 2012 15:01

    Me encanta el concepto de palabras «axiomáticas» pero, aunque pueda coincidir ese último clúster con el número de palabras que utiliza normalmente un hablante medio supongo que siguen pareciendo demasiadas y que se podrían seguir haciendo cribas cada vez más radicales. Por ejemplo ¿qué hay de aquellas palabras sólo conectadas al clúster por un vínculo?

    Otra cuestión que también podría ser muy interesante es saber qué palabras tienen más conexiones (olvidándonos de nexos como preposiciones, conjunciones, artículos… claro) ¿Con tu código tienes facilidad de obtener ese dato?

    ¡Un saludo!

  6. datanalytics 16 marzo, 2012 15:08

    @Ender Muab’Dib Sí, tengo una base de datos entera de la que se pueden extraer más indicadores. Los que he puesto en la entrada son unos pocos nada más. Pero cualquier índice que se use en el análisis de redes sociales, por ejemplo, tendría una traslación a este contexto (p.e., la centralidad de los nodos/palabras).

    ¡Gracias por el comentario!

  7. Ebaste 23 enero, 2013 18:21

    Muy interesante, como comentaba por twitter, hemos creado un núcleo de diccionario en español. http://mininol.com que sería esa primera capa del diccionario. Esa capa se autodefine con esa capa. La siguiente usará las palabras de este núcleo para definir y así sucesivamente [Si usamos exclusivamente esas mil palabras las definiciones son muy largas]
    En https://store.apicultur.com hay algunas apis que podrían ayudarte a mejorar los resultados [espero] También podrías incluir alguna información de frecuencia o retirar palabras vacías con pronombres, preposiciones, etc.
    Me encantaría tener datos más detallados del experimento.

    Enhorabuena y un saludo!

    Eduardo

Los comentarios están desabilitados.