En esta entrada voy a ilustrar el uso del paquete MicroDatosEs que anuncié el otro día. Como indiqué entonces, de momento sólo permite leer microdatos de la EPA con el formato que tiene desde el año 2005, la fecha del último cambio metodológico.
Como todavía no están disponibles los del segundo trimestre del 2012, utilizaré los del primero. Para ello, hay que ir a las páginas del INE y seleccionar el fichero correspondiente al primer trimestre de 2012 (que los impacientes pueden descargar directamente de su enlace directo).
Se trata de un fichero comprimido que, obviamente, tenemos que descomprimir, para obtener un fichero de texto llamado EPAwebT0112
con un contenido prácticamente ininteligible. Haciendo
library(MicroDatosEs) epa <- epa2005("EPAwebT0112")
se carga este fichero en R. El objeto resultante es de la clase data.set
, una estructura de datos similar a un dataframe
definido en el paquete memisc
y que dispone de ciertos instrumentos y estructuras de datos que lo hacen muy adecuado para trabajar con información procedente de encuestas. De hecho, quien quiera usar R en este ámbito, haría bien en, cuando menos, familiarizarse con la viñeta del paquete.
Para inspeccionar el contenido del objeto epa
se puede hacer summary(epa)
y luego seleccionar las variables de interés mediante
que corresponden a la edad, sexo, nivel de formación, estado ocupacional y el factor de elevación de los individuos encuestados. Puedo recodificar niveles así:
con lo que estoy indicando, por ejemplo, que los ocupados, «o», son aquellos con los códigos 3 y 4 en la encuesta, los parados, «p», los de los códigos 5 y 6 y los inactivos los de los códigos 7, 8 y 9. Igualmente, recodifico los niveles educativos en «otros», «primaria», «formación profesional», «bachiller» y «universidad». Luego, con
dat <- as.data.frame(dat)
convierto el objeto data.set
en un dataframe
tradicional.
Por ejemplo, si ahora se hace
tasa.paro <- dat[ as.numeric(dat$edad) > 3, ] # se eliminan los menores de 16 años tasa.paro <- tasa.paro[ tasa.paro$aoi != "i", ] # se eliminan los inactivos tasa.paro$factorel <- tasa.paro$factorel / 100 # realmente no necesario 100 * sum( tasa.paro$factorel * (tasa.paro$aoi == "p") ) / sum( tasa.paro$factorel )
se obtiene la consabida tasa de paro para el primer trimestre del año.
¿Se ofrece alguien a completar los detalles hasta construir el gráfico que mostré el otro día?
Hola Carlos:
Muchas gracias por esta nueva entrada. Como la EPA contiene datos ponderados supongo que cada análisis deberá hacerse teniendo ésto en cuenta para, por ejemplo, detallar las tasas de desempleo por sexo, edad, nivel de estudios, etc.
No tengo nivel en R como para ayudar en tu petición, pero voy a ver qué puedo hacer.
Respecto a la Encuesta de Presupuestos Familiares lo interesante es integrar los datos de los hogares con los de gastos y poder así analizar la «cesta de la compra» de cada hogar, aunque sale (al menos en SPSS) un fichero bastante considerable
@José Ignacio Sí, efectivamente, la variable factorel contiene la ponderación…
Voy a ver si le echo un buen vistazo a la EPF…