Nueva versión de MicroDatosEs: héroes, villanos y mejoras

Ayer odié mucho a José Luis Cañadas —que sigue no obstante siendo amigo: véase más abajo— por esto:

Hubiera preferido reservarme la primicia para todos sus usuarios y simpatizantes de la nueva versión del paquete MicroDatosEs recién subida a CRAN pero… en fin.

De todos modos José Luis no es el villano de la historia. El villano es el INE, que parió en la mañana del 29 de abril los nuevos resultados de la EPA con un cambio retroactivo de formato en los ficheros de microdatos que rompió mis funciones justo cuando más falta hacían. ¡Contento me tiene el INE! ¡Apañaos dejó a los usuarios mi paquete! ¿Sabéis cuántos correos desesperados recibí esa mañana?

(La parte positiva de la historia es que vine a conocer a unos cuantos usuarios de mi código, uno de los mayores placeres de quien programa alguna cosilla).

Sucedió además que la nueva codificación, al contrario del resto de los valores del fichero, es alfanumérica (y no estrictamente numérica, como hasta la fecha). Eso perjudicó enteramente las funciones que utilizo internamente, las del paquete memisc. Su autor, en comunicación personal, me comentaba que aún no ha encontrado el tiempo necesario para incorporar a ellas el soporte a códigos no numéricos. Es decir, el terreno no podía ser más pantanoso.

Ahí apareció el héroe de la historia. Que es José Luis. Sí, José Luis de nuevo. Esta vez, como digo, vestido de héroe y no de aguafiestas como más arriba. Me mandó por correo un oneliner que no habíamos olido ni Martin Elff (autor de memisc) ni yo.

Si hoy podéis calcular la tasa de paro por nivel educativo, es gracias a él.

Finalmente, las mejoras. Sabréis que allá por el 2010 se hizo un censo en España y que los datos, solo unas cuantas docenas de meses después, ya están disponibles. No sé bien desde cuándo. Ni de dónde se pueden bajar. Solo sé que los tengo y que he creado una función que permite leerlos dentro de mi paquete. Eso sí, una función modificada de manera que sea posible

  • leer solo una selección de columnas y
  • creo que también solo una selección de filas.

De esto último (paradójicamente, porque si alguien debería saberlo, ese soy yo) no estoy seguro. Y hoy ya es muy tarde para ponerme a comprobar si lo hice o no. De lo que si que me acuerdo meridianamente es de que con 8GB de RAM no hay manera de cargar el fichero completo. Lo conseguí en un tiempo razonable (unos pocos minutos) en una máquina de 24 GB y creo que no le hicieron falta más que dos terceras partes. Como veis, no vale cualquiera. Pero seleccionando las columnas necesarias de antemano y con que no sean demasiadas, con casi cualquier ordenador moderno debería bastar.

5 comentarios sobre “Nueva versión de MicroDatosEs: héroes, villanos y mejoras

  1. José Luis 14 mayo, 2014 12:39

    ups. Perdona Carlos por chafarte la primicia. Se debió a la emoción de poder trabajar de nuevo con la EPA en R.

    Saludos.

  2. José Luis 14 mayo, 2014 12:44

    Ah. Y de héroe nada. No es más que la consecuencia de usar software libre, al poder ver el código es posible identificar el problema. Una gran ventaja sobre el privativo.

  3. Carlos 8 junio, 2014 0:03

    He instalado el paquete en R 3.0 sobre Windows 7 y bajado un fichero de micordatos del Censo 2011.

    Con un script he reducido el tamaño del fichero .txt filtrando registros por provincia, hasta dejarlo en 50 MB aproximadamente.

    Antes de leerlo con

    data <- censo2010("Microdatos.txt", columns = NULL, summary = TRUE)

    he tenido un problema y es que sólo me lee una linea (la primera) del fichero. En el sumario se aprecia además otro pequeño problema, como es la utilización de un juego de caracteres que no presenta bien en consola (RStudio) las letras no inglesas (acentos, eñes, etc).

    ¿Alguna idea del porqué?

  4. Carlos J. Gil Bellosta 8 junio, 2014 2:55

    ¿Me puedes escribir a mi correo? ¿Me puedes hacer llegar de alguna manera el fichero filtrado que estás utilizando?

  5. Carlos 8 junio, 2014 19:54

    Te he enviado link de dropbox a tu correo de la sección Bio. Gracias.

Los comentarios están desabilitados.