Probando hunspell para el procesamiento de texto en español

El paquete hunspell de R permite procesar texto utilizando como soporte la infraestructura proporcionada por Hunspell, el corrector ortográfico que subyace a muchas aplicaciones en R.

Existe una viñeta que ilustra el uso del paquete pero, como siempre, en inglés. En español las cosas son parecidas pero, como siempre, nunca exactamente iguales. En esta entrada, por lo tanto, voy a repasar partes de la viñeta aplicándolas a nuestra tan frecuentemente maltratada mas por ello no menos querida por algunos como yo (pausa) lengua.

Cargamos el paquete:

hunspell utiliza los diccionarios de Hunspell. Por efecto, el paquete usa los diccionarios correspondientes a en_US, pero nosotros utilizaremos el es_ES. Si están instalados, todo podría funcionar (luego veremos que no) haciendo

Ese comando define el diccionario que usaremos después. El paquete es listo y sabe ubicar a partir de su argumento-indicio los ficheros correspondientes del disco duro, que en mi caso son

Desafortunadamente, ese diccionario para mi distribución está codificado en ISO-8859 (¿por qué? ¿por qué? ¿por qué?) pero mis locales son UTF-8. Para curarse en salud, es mejor descargar versiones en UTF-8 del diccionario. No lo hagas y ta arrepentirás mucho si mezclas codificaciones.

Tras descargarlos, defino mi diccionario así:

Y, ahora sí, a triunfar:

También es posible extraer lemas de términos o etiquetarlos gramaticalmente:

Estos análisis también pueden realizarse sobre frases completas (es decir, el sistema incluye un tokenizador):

O, incluso, documentos completos en diversos formatos, entre ellos, el PDF:

Etc.

Vale.

2 comentarios sobre “Probando hunspell para el procesamiento de texto en español

  1. Jose 23 Febrero, 2017 0:18

    Aquellos que nos dedicamos gran parte del tiempo al PLN te agradecemos enormemente este apunte.

  2. Esteban 18 Abril, 2017 18:22

    Muchas gracias. Agradecido de Por Vida

Los comentarios están desabilitados.