Datanalytics

Archivo

Entradas Etiquetadas ‘epa’

Todo lo que Vd. siempre quiso saber sobre la EPA (etc.)

Viernes, 26 de abril de 2013 Sin comentarios

¿A quién considera la EPA con trabajo?

Esencialmente, a aquellas personas que durante la semana de referencia hayan trabajado, incluso de forma esporádica u ocasional, al menos una hora a cambio de un sueldo, salario u otra forma de retribución conexa, en metálico o en especie.

También se suman a la lista aquellas personas que, aunque no hayan trabajado durante esa semana, mantengan un estrecho vínculo con su puesto de trabajo (por ejemplo, porque están de vacaciones o disfrutan de una baja médica).

¿Qué es el subempleo por insuficiencia de horas?

Es la situación en la que se encuentra una persona ocupada cuando sus horas de trabajo son insuficientes en relación con una situación de empleo alternativo que esta persona desea desempeñar y está disponible para hacerlo.

¿Es lo mismo que el empleo a tiempo parcial?

No. Mucha de la gente que trabaja a tiempo parcial no quiere trabajar más horas. Sin embargo, en 2012, el 54.5 % de quienes tenían un empleo a tiempo parcial se consideraron subempleados.

¿Se consideran empleados los subempleados por insuficiencia de horas?

Sí.

¿Hay muchos subempleados por insuficiencia de horas en España?

Según la última EPA, 2.4 millones de españoles, el 10.8 % de la población activa.

¿Se cuentan como empleados o como parados?

Ya lo hemos dicho más arriba: como empleados.

¿Somos campeones de Europa también en subempleo?

Pues el año pasado lo éramos (empatados con Irlanda), con una tasa del 8% (PDF).

 

Referencias:

Categories: números Tags: ,

Estadísticas oficiales alternativas

Lunes, 25 de febrero de 2013 Sin comentarios

Me reconozco entusiasta de la heterodoxia. Allá donde hay comunión de pensamiento, siento la necesidad imperativa de abrir las ventanas y orear el ambiente. Y en pocos ámbitos la hay menos que en el de las estadísticas oficiales, que se toman como trasunto mismo de la realidad que aspiran a medir.

Por eso traigo a estas páginas la mención a Shadow Government Statistics, un portal que proporciona medidas alternativas de las principales magnitudes macroeconómicas (de los EE.UU.). Su autor, Walter J. Williams, ilustra así de descriptivamente su desencanto con las cifras oficiales:

One of my early clients was a large manufacturer of commercial airplanes, who had developed an econometric model for predicting revenue passenger miles. The level of revenue passenger miles was their primary sales forecasting tool, and the model was heavily dependent on the GNP (now GDP) as reported by the Department of Commerce. Suddenly, their model stopped working, and they asked me if I could fix it. I realized the GNP numbers were faulty, corrected them for my client (official reporting was similarly revised a couple of years later) and the model worked again, at least for a while, until GNP methodological changes eventually made the underlying data worthless.

Por ejemplo, en SGS, las cifras del desempleo se muestran así:

Su autor acompaña las cifras oficiales (que aparecen en el periódico, en rojo) de la medida de desempleo amplio, que suma a la anterior:

  • los desempleados desanimados a corto plazo, es decir, los que pudiendo trabajar, dicen no estar buscando empleo
  • los subempleados, aquellos que tienen trabajos a tiempo parcial con un número de horas que consideran insuficiente

Y sobre las curvas anteriores muestra en azul su propia estimación, que incluye la totalidad de los desempleados desanimados que, según él, fueron oficialmente declarados inexistentes tras la reforma metodológica de 1994.

Los interesados en el asunto encontrarán en Shadow Government Statistics correcciones similares a las cifras de la inflación, del PIB, etc.

Cuando hablé el otro día de la crítica del presidente de la patronal a las cifras de la EPA uno de los comentarios de los lectores señalaba —acertadamente— que la crítica de Rosell llevaba carga ideológica. ¡Obvio! Pero igualmente puede uno preguntarse si las definiciones imperantes de qué es un desempleado, qué computa en el PIB, qué entra en la cesta de la compra con la que se computa el índice de precios, etc. están igualmente cargadas ideológicamente. Aunque luego las defiendan a capa y espada (como dije, ad verecundiam) comentaristas de todo pelaje que en temas menos relevantes suelen hilar más fino y encontrarle los cinco pies al gato más intrascendente.

Voy a partir una lanza a favor de Rosell a cuenta de la EPA

Lunes, 11 de febrero de 2013 3 comentarios

Voy a partir una lanza a favor de Rosell. Aunque algún colega luego me quiera fusilar. Espero que lo podamos discutir todo luego amigablemente sea acá o en otros foros igualmente civilizados.

Las encuestas tienen algo de mágico. Parecen una versión revivida de los antiguos oráculos. No deja de sorprender que sea posible conocer la opinión de millones de personas preguntando a un par de miles de ellas, ¿verdad?

Además, los resultados de muchas encuestas se agotan en sí mismos: qué porcentaje de la gente opina esto o lo otro. Y no tienen mayor trascendencia. Ni existe un patrón contra el que medir en qué medida yerran. A lo más, una escueta ficha técnica ex-ante.

Pero existe un tipo muy notable de encuestas (a las que ya me he referido previamente) que se contrastan a los pocos días con datos reales: las electorales. Y no hace falta que abunde aquí sobre su éxito o falta de éxito predictivo. Ya se han ocupado otros del asunto, como por ejemplo aquí o aquí. (Tengo la impresión de que los profesionales de la cosa pasan dos de los años del ciclo electoral explicando por qué son tan guays y los otros dos protestando los motivos de fuerza mayor que les impidieron cumplir las expectativas que habían generado).

Claro: una cosa es decir a quién piensa uno votar y otra, votar. Son hechos distintos, obviamente, en cuya fundamental diferencia, quienes realizan los sondeos, no dejan de hacer hincapié siempre después de conocidos los recuentos oficiales.

Pero, qué pasa cuando la pregunta es ¿a quién votó Vd. en las elecciones pasadas? Aquí ya no deberían (¿o sí?) influir ese tipo de circunstancias (incluso meteorológicas) diferenciadoras. Véamoslo.

En el barómetro de enero de 2013 del CIS se tabulan las respuestas de 2483 personas (elegidas con criterio riguroso para que reflejen la realidad de la sociedad española) a ciertas preguntas. Y la tabulación se realiza de acuerdo con su recuerdo de voto en las últimas elecciones generales, las de 2011. Este recuerdo de voto debería ser mínimamente coincidente con los resultados reales en dichas elecciones, ¿verdad? Véamoslo. Haciendo en R

options(digits = 2)

library(xtable)

cis <- c(663, 545, 153, 79, 50, 154)
reales <- c( 10830693, 6973880, 1680810, 1140242, 1014263, 2299688    )
names(reales) <- names(cis) <- c("PP", "PSOE", "IU",  "UPyD", "CiU", "Otros" )

tmp <- data.frame( cis = 100 * cis / sum(cis), reales = 100 * reales / sum(reales))
tmp$diff <- tmp$cis - tmp$reales
tmp$diff.pc <- 100 * tmp$diff / tmp$reales

print(xtable(tmp), type = "html")



se obtiene

cis reales diff diff.pc
PP 40.33 45.24 -4.91 -10.86
PSOE 33.15 29.13 4.02 13.80
IU 9.31 7.02 2.29 32.55
UPyD 4.81 4.76 0.04 0.89
CiU 3.04 4.24 -1.20 -28.21
Otros 9.37 9.61 -0.24 -2.49

donde la primera columna corresponde a los porcentajes de votos obtenidos en la encuesta del CIS, la segunda a los reales (descontados en ambos casos los nulos y blancos) y las demás son las diferencias. Cierto, quedan sin computar los 55 sujetos que no recuerdan su voto y los 196 que se negaron a contestar esa pregunta. Pero a ti, lector, ¿te parece que las discrepancias están dentro de rango?

Ahora, el tema Rosell. Viene el tal señor y critica la EPA. Dizque no es fiable. Que es una encuesta. Que no se cree los números que arroja. Que si en España no hay seis millones de parados. Etc.

Y se le responde en masse con esto, esto o esto. Salvo en algunos casos, como este, la defensa de la EPA se realiza ad verecundiam.

Rosell, que es empresario, tiene que y debe ser y actuar como Tony el Gordo, el personaje de El Cisne Negro de Taleb. Y como su alter ego de la ficción, hace bien en cuestionarse números que se le dan hasta la cuarta cifra significativa como palabra de la OCDE, la UE y la OIT si no de Dios directamente.

Y es tarea del INE, de quienes se sientan irritados por esta entrada e incluso de mí mismo explicar qué se puede y qué no se puede esperar de una encuesta, sus méritos y sus deméritos, sin caer en la falacia de la reificación.

Tu tasa de paro personal

Jueves, 24 de enero de 2013 13 comentarios

En el pasado nos hemos ocupado en estas páginas del desempleo. Hoy, día en el que se han anunciado los datos de la EPA del último trimestre de 2012, sale a la luz TTParo.es, un proyecto en el que he colaborado (aunque en el que todo lo que se ve es obra de Kaleidos) y que permite calcular tu tasa de paro personal.

Por ejemplo, en

puedo ver la evolución de la tasa de paro de aquellos que son como yo desde el 2005 y compararla con la general.

Desde hace mucho tiempo vengo repitiendo que la forma en la que se informa de los resultados trimestrales de la EPA tiene un sesgo administrativo (por provincias o comunidades autónomas) con reminiscencias de la sección de deportes (el equipo de mi ciudad es mejor que el de la tuya). Pero provincia, comunidad autónoma y, en cierta medida, el sexo, no son las variables determinantes que nos afectan a la hora de buscar empleo: existen otras más importantes que nos encajan en segmentos relativamente estancos y en los que, en definitiva, nos movemos.

Y la información sobre este fenómeno con una dimensión micro tan humana debería, creo yo, reflejar mejor estas circunstancias.

(Y sí, hemos usando subterráneamente R y el paquete MicroDatosEs).

Más sobre variaciones insignificantes en estadísticas públicas

Martes, 4 de diciembre de 2012 Sin comentarios

Hemos talado cantidad de montes y destruido el ecosistema de miles de ardillas para fabricar el papel sobre el que discutir asuntos totalmente irrelevantes. Hablé un poco de eso hace unos días y más en ocasiones anteriores, como esta y alguna más que me da pereza ubicar.

Ahora leo en Significance cómo protesta Mark Fransham:

La BBC informó la semana pasada que “el número de desempleados descendió en 50.000 hasta los 2,53 millones en el trimestre anterior”. Me pareció un cambio pequeño en una estimación procedente de una encuesta. Así que, preguntándome por la significancia estadística, consulté la página de la Oficina Nacional de Estadística, (ONS). Que, de hecho, decía: “hay 2,53 millones de desempleados, 50.000 menos desde marzo a mayo de 2012 y desde la año anterior”.

El titular no aportaba información sobre el error muestral asociado, pero en una de las tablas del informe encontré cómo el cambio trimestral era de -50,000 +/-89,000. Eso, en mi opinión, es un cambio estadísticamente insignificante del que no podemos inferir si podemos estar seguro de si el desempleo subió, bajó o se mantuvo en los mismos niveles. Sin embargo, esa no es lo que anunció la ONS; y tampoco se plantearon matizaciones en el debate parlamentario, donde tanto el gobierno como la oposición citaron el descenso de 50.000 desempleados con certeza absoluta.

El debate, como siempre, es el siguiente: ¿es el desempleo (o cualquier otra magnitud análoga) una realidad que se trata de medir (o estimar) a través de este tipo de encuestas? ¿O reemplaza, más bien, el resultado de esas encuestas a la realidad física de esa magnitud (relegada así a las disquisiciones un tanto metafísicas de individuos como yo)? Como se prefiera. Pero por el bien de nuestros bosques y de nuestras ardillas, preferiría que los resultados de encuestas de esta naturaleza se tomasen cum grano salis.

¿… coma cero dos por ciento? ¡Anda ya!

Miércoles, 28 de noviembre de 2012 Sin comentarios

Hoy hablo en la reunión del grupo de usuarios de R de Madrid. Voy a reciclar la charla que di en las IV Jornadas de Usuarios de R sobre mi paquete MicroDatosEs y voy a aprovechar para criticar, en mi estilo, enunciados como

El número de parados crece en 85.000 personas y alcanza la cifra de 5.778.100. La tasa de paro se incrementa 38 centésimas hasta el 25,02%.

que pueden encontrarse en la nota de prensa del INE que resume los resultados de la última encuesta de población activa, la del tercer trimestre de 2012.

En efecto, aprovechando que el paquete MicroDatosEs permite cargar fácilmente los microdatos de la EPA, voy a construir gráficos como

en el que se muestra en qué rangos podría estar variando la tasa de paro recogida por el INE si el azar hubiese hecho que los entrevistados fuesen otros que los unos que eligió finalmente el INE en 1000 universos paralelos idénticos al nuestro salvo por ese pequeño detalle. Los resultados no son escandalosamente distintos de los que con cuatro cifras significativas reificaron los medios pero pone en cuestión nuestra manía por la ultraprecisión.

Y luego, refinando la tortura, nos haremos la misma pregunta a niveles inferiores al nacional para ver si se cumple o no que la varianza decrece con la raíz cuadrada de n y qué pueden significar los números publicados aplicados a Soria, La Rioja o Melilla.

¿Nos veremos?

Un paseo por el paquete MicroDatosEs (y la EPA, de nuevo)

Lunes, 6 de agosto de 2012 2 comentarios

En esta entrada voy a ilustrar el uso del paquete MicroDatosEs que anuncié el otro día. Como indiqué entonces, de momento sólo permite leer microdatos de la EPA con el formato que tiene desde el año 2005, la fecha del último cambio metodológico.

Como todavía no están disponibles los del segundo trimestre del 2012, utilizaré los del primero. Para ello, hay que ir a las páginas del INE y seleccionar el fichero correspondiente al primer trimestre de 2012 (que los impacientes pueden descargar directamente de su enlace directo).

Se trata de un fichero comprimido que, obviamente, tenemos que descomprimir, para obtener un fichero de texto llamado EPAwebT0112 con un contenido prácticamente ininteligible. Haciendo

library(MicroDatosEs)
epa <- epa2005("EPAwebT0112")

se carga este fichero en R. El objeto resultante es de la clase data.set, una estructura de datos similar a un dataframe definido en el paquete memisc y que dispone de ciertos instrumentos y estructuras de datos que lo hacen muy adecuado para trabajar con información procedente de encuestas. De hecho, quien quiera usar R en este ámbito, haría bien en, cuando menos, familiarizarse con la viñeta del paquete.

Para inspeccionar el contenido del objeto epa se puede hacer summary(epa) y luego seleccionar las variables de interés mediante

dat <- subset( epa, select = c( edad, sexo, nforma, aoi, factorel) )

que corresponden a la edad, sexo, nivel de formación, estado ocupacional y el factor de elevación de los individuos encuestados. Puedo recodificar niveles así:

dat$aoi <- recode(dat$aoi, "o" = 1 <- 3:4, "p" = 2 <- 5:6, "i" = 3 <- 7:9)
dat$nforma <- recode( dat$nforma,
  "o"  = 1 <- c(80,11),
  "p"  = 2 <- c(12,21,22,23,36),
  "fp" = 3 <- c(31,33,34,41,51),
  "b"  = 4 <- c(32),
  "u"  = 5 <- c(50,52:56,59,61) )

con lo que estoy indicando, por ejemplo, que los ocupados, “o”, son aquellos con los códigos 3 y 4 en la encuesta, los parados, “p”, los de los códigos 5 y 6 y los inactivos los de los códigos 7, 8 y 9. Igualmente, recodifico los niveles educativos en “otros”, “primaria”, “formación profesional”, “bachiller” y “universidad”. Luego, con

dat <- as.data.frame(dat)

convierto el objeto data.set en un dataframe tradicional.

Por ejemplo, si ahora se hace

tasa.paro <- dat[ as.numeric(dat$edad) > 3, ]     # se eliminan los menores de 16 años
tasa.paro <- tasa.paro[ tasa.paro$aoi != "i", ]   # se eliminan los inactivos
tasa.paro$factorel <- tasa.paro$factorel / 100    # realmente no necesario
100 * sum( tasa.paro$factorel * (tasa.paro$aoi == "p") ) / sum( tasa.paro$factorel )

se obtiene la consabida tasa de paro para el primer trimestre del año.

¿Se ofrece alguien a completar los detalles hasta construir el gráfico que mostré el otro día?

El paro, ¿cosa de hombres?

Lunes, 16 de julio de 2012 Sin comentarios

Está de moda hablar de paro. Pero las discusiones al respecto adolecen de una serie de carencias:

  • Son excesivamente retrospectivas: nos aburren con la serie temporal, lo que pasó en 2003, en 1995 y otras fechas ya amortizadas.
  • Tienen un sesgo administrativo: honestamente, lo que pase en Andalucía importa (o debería importar) poco a un andaluz que acaba de graduarse y busca su primer empleo. Además de que existen opciones fuera de las distintas comunidades autónomas, no hay un mercado de trabajo sino cientos de mercados de trabajo estancos dentro de cada una de ellas.
  • El tema de la desigualdad entre sexos se trata de manera totalmente pueril: apenas se hace un esfuerzo por controlar el resto de las variables de confusión que pueden afectar a las tasas de paro entre sexos (p.e., la edad, el nivel educativo, etc.).

Interesa más pensar qué puede pasar en el futuro. Es complicado pero, aun así, hay fenómenos (como los demográficos) de una inercia ineluctable. Nuestros políticos, además, deberían estar pensando cuántos médicos, cuántos ingenieros, cuántos electricistas puede necesitar nuestra economía al cabo de los plazos multianuales que necesita la formación de nuevos profesionales. Para que no nos pase como en el pasado.

Yo, amateur en estos temas, voy a aventurar algunas proyecciones con un plazo de 10 o 20 años. En primer lugar, traigo a colación un estudio de McKinsey sobre el futuro del trabajo:

La tendencia es clara y existen motivos para pensar que seguirá en el tiempo: en las economías avanzadas descenderá la demanda de trabajadores poco cualificados y crecerá la de los cualificados. De hecho, los autores del estudio mencionan cómo

en Francia, en 2020, faltarán 2.2 millones de trabajadores con nivel de baccalaureate y sobrarán 2.3 millones sin él.

(Nota: al estar escrito en inglés, donde baccalaureate podría significar diplomado en lugar de bachiller, como en francés, me queda la duda del nivel educativo exacto al que se refiere el párrafo).

Existe otro estudio aún más amplio de McKinsey, The world at work: Jobs, pay, and skills for 3.5 billion people que abunda sobre estos temas y cuya lectura recomiendo igualmente.

Si damos por buena esta tendencia hacia la sofisticación del mercado laboral, el siguiente gráfico, extraído de los datos de la última EPA, como los de una entrada anterior, muestra cómo en unos años se le puede acabar dando la vuelta a uno de los más manidos axiomas relativos al mercado laboral:

En él vuelvo a representar el porcentaje de parados (resaltado en verde) en función de

  • la edad, que crece de izquierda a derecha,
  • el nivel de estudios, de arriba a abajo, aunque está algo desordenado: b son los bachilleres; fp los graduados en formación profesional; p, quienes tienen la primaria; u, los universitarios y, finalmente, o, quienes no han acabado la primaria.
  • el sexo, con la barra de los hombres encima de la de las mujeres.

En esta ocasión, el área de las barras es proporcional al número de individuos en cada clase. Se ve cómo el número de personas sin estudios es muy pequeño comparado con el resto. Y cómo las mujeres representan un porcentaje cada vez mayor del mercado laboral con formación universitaria, el que acaparará los mejores salarios y tendrá plena ocupación.

No sólo las mujeres son mayoría en el segmento universitario del mercado de trabajo sino que la tendencia es creciente: conforme se vayan retirando del mercado las viejas generaciones, en las que la proporción era la contraria, el peso de las mujeres en él será creciente. El mecanismo de reposición es el mismo que explica Hans Rosling en este vídeo.

Por eso se puede aventurar que:

  • el parado español del futuro será hombre y que
  • si se sigue sin controlar por otras variables, las mujeres ganarán más.

Edad, nivel de formación, sexo y paro

Jueves, 12 de julio de 2012 4 comentarios

No sé si alguien podrá ayudarme con este gráfico que he hecho con Mondrian:

Está construido a partir de los microdatos de la última EPA e indica el porcentaje de parados (resaltado en verde) dentro de las siguientes tres categorías:

  • Tramos de edad (ordenados)
  • Nivel de estudios (desde los que no han completado la primaria hasta los universitarios)
  • Sexos

Desafortunadamente, he perdido las etiquetas. ¿Podría alguno de mis lectores ayudarme a identificar a qué categoría pertenece cada barra?

Medias de medias… ¿a estas alturas de siglo?

Jueves, 3 de noviembre de 2011 5 comentarios

Lo sospechaba y ha resultado ser cierto: media de medias. ¡Carajo! El siguiente gráfico que compara la tasa media de paro entre el norte y el sur de España está extraído de El Economista:

¿Cómo se han calculado los porcentajes? Veámoslo (a partir de los datos que aparecen en el artículo); para el sur, promedia las tasas de paro de cada comunidad autónoma así:

> mean( c( 30.93, 29.55, 22.44, 24.73, 23.6, 24.19, 33.2, 23.81 ) )
[1] 26.55625

Operación que, obvia decirlo, sólo sería correcta si la población de todas las comunidades autónomas implicadas fuese, cuando menos, similar (y, p.e., la población de Andalucía fuese comparable a la de Melilla).

Y para el norte, asá:

> mean( c( 16.16, 17.17, 17.81, 14.10, 16.08, 19.43, 17.25, 17.01,
> 11.68, 12.17, 17.39 ) )
[1] 16.02273

Para que no se me ocuse de perpetuo protestador, quiero anunciar que estoy trabajando en un programa (y tal vez paquete) de R que permita importar automáticamente los microdatos de la EPA para que el desmedido talento de los usuarios de R permita desenterrar patrones más interesantes que los que nos regalan mensualmente los periodistas anuméricos.

Categories: números Tags: , ,