|
Archivo
Entradas Etiquetadas ‘estadística pública’
El Banco Central Europeo publicó un estudio sobre la riqueza de los hogares europeos en abril de 2013. A partir de él, el Bundesbank publicó otro informe que subrayaba las diferencias en riqueza entre los hogares alemanes y, supongo que entre otros, los españoles.
El informe de BCE recogía la media y la mediana del patrimonio de los hogares por países (junto con otras variables adicionales, como la renta, el nivel de endeudamiento, etc.). Obviamente, las medias son superiores a las medianas en prácticamente todas esas variables. El Bundesbank, en su informe, omitía las medias y presentaba únicamente las medianas, magnitudes que contribuían a subrayar una presunta pobreza relativa de los hogares alemanes respecto a los españoles.
Los medios españoles se hicieron eco de la noticia y publicaron artículos como:
y otros que se pueden encontrar por ahí. Algunos de ellos —salvo el de El Mundo, que confunde los conceptos— discuten la relación entre media y mediana y la elección torticera del segundo estadístico por parte del Bundesbank.
Ya he hablado previamente sobre medias y medianas en estas páginas. Y alguna vez, imagino, habré dejado escrito que si me pusiesen una pistola en la sien y me obligasen a resumir una distribución (p.e., de riqueza de los hogares) en un único número, utilizaría la mediana.
Pero eso solo si me pusiesen una pistola en la sien. Si pudiera razonar con quien me hace el encargo, trataría de convencerlo para que mostrase gráficamente la distribución completa mediante un histograma o técnica similar. ¿Por qué restringirse a un único número cuando con poco más esfuerzo se pueden tener todos? Tenemos una obsesión enfermiza por las cifras redondas, por olvidar que la realidad danza aleatoriamente alrededor de esas estacas cognitivas —las que conforman el temario de esos cursos de estadística introductoria— que clavamos en nuestros cerebros para autosugestionarnos con que comprendemos los fenómenos.
No nos restrinjamos innecesariamente, mostremos las distribuciones completas y, entre otras cosas, nos ahorraremos discusiones bizantinas sobre cuántos ángeles pueden danzar sobre la punta de un alfiler.
Coda: Guillermo de la Dehesa ha publicado recientemente un artículo, ¿Son los hogares españoles más ricos que los alemanes?, que aunque se atora momentáneamente en la inane discusión sobre la media y la mediana, tiene a bien ahondar en otros aspectos de las estadísticas, como lo que miden y lo que no miden realmente y que explican bastante bien las causas de la aparente paradoja que ha motivado tanta ida y venida de artículos.
¿A quién considera la EPA con trabajo?
Esencialmente, a aquellas personas que durante la semana de referencia hayan trabajado, incluso de forma esporádica u ocasional, al menos una hora a cambio de un sueldo, salario u otra forma de retribución conexa, en metálico o en especie.
También se suman a la lista aquellas personas que, aunque no hayan trabajado durante esa semana, mantengan un estrecho vínculo con su puesto de trabajo (por ejemplo, porque están de vacaciones o disfrutan de una baja médica).
¿Qué es el subempleo por insuficiencia de horas?
Es la situación en la que se encuentra una persona ocupada cuando sus horas de trabajo son insuficientes en relación con una situación de empleo alternativo que esta persona desea desempeñar y está disponible para hacerlo.
¿Es lo mismo que el empleo a tiempo parcial?
No. Mucha de la gente que trabaja a tiempo parcial no quiere trabajar más horas. Sin embargo, en 2012, el 54.5 % de quienes tenían un empleo a tiempo parcial se consideraron subempleados.
¿Se consideran empleados los subempleados por insuficiencia de horas?
Sí.
¿Hay muchos subempleados por insuficiencia de horas en España?
Según la última EPA, 2.4 millones de españoles, el 10.8 % de la población activa.
¿Se cuentan como empleados o como parados?
Ya lo hemos dicho más arriba: como empleados.
¿Somos campeones de Europa también en subempleo?
Pues el año pasado lo éramos (empatados con Irlanda), con una tasa del 8% (PDF).
Referencias:
Traigo a la consideración de mis lectores el Estudio de demanda y uso de gobierno abierto en España que con fecha de primeros de este año ha realizado el Observatorio Nacional de las Telecomunicaciones y otros asuntos afines.
Aborda, dice, las siguientes cuestiones que copio:
- La visión de la ciudadanía sobre la Administración Pública
- La valoración que hace de los servicios públicos.
- El uso de la Administración Electrónica.
- La importancia que concede a las actuaciones en materia de transparencia, participación y colaboración.
- Las demandas más relevantes sobre transparencia y participación.
Los principales resultados que dice encontrar son:
- El 65.5 % de la ciudadanía considera como buena o muy buena la calidad de los servicios públicos.
- El 42.2 % realizan trámites electrónicamente con las administraciones públicas y el 65,2% consultan las webs públicas para informarse de actividades o actuaciones administrativas.
- El 75 % de los encuestados creen que la transparencia mejoraría la confianza en el Gobierno.
- El 81.4 % de la ciudadanía reclama nuevos canales para incrementar la participación y apuesta por la convivencia entre canales digitales y canales tradicionales.
- El 53.6 % de los usuarios de Internet manifiestan interés en los asuntos políticos frente al 34.8 % de los que no lo son.
En realidad, el estudio consta de dos encuestas: una a nivel nacional y otra específica para el País Vasco —donde determinadas iniciativas de gobierno abierto han estado funcionando ya durante un cierto tiempo—. Y es en la discusión de la segunda que se leen unos parrafitos que, parece, desmerecen reseña alguna en el terso resumen ejecutivo:
Del total de encuestados únicamente el 11.1 % afirma conocer alguno de los portales vascos relacionados con el Gobierno Abierto comentados anteriormente (Irekia, Adi! u Open Data Euskadi), por lo que el desconocimiento sobre estas iniciativas es muy elevado. El escaso tiempo que llevan en marcha estos portales de Gobierno Abierto puede influir en este hecho.
El portal más conocido es Adi!, que conocen el 6.4 % de los encuestados. El resultado menos optimista lo obtiene Irekia, que sólo conocen el 3.8 % de los encuestados. Los medios a través de los cuales los ciudadanos encuestados manifiestan haber conocido estos portales son principalmente las campañas publicitarias a través de medios de comunicación de masas y por
el boca a boca de conocidos.
Teniendo en cuenta que únicamente el 1.3 % de los encuestados ha entrado alguna vez el portal Irekia o en el portal Adi!, y que sólo el 0.6 % ha visitado el portal Open Data Euskadi, es muy difícil establecer los impactos de estas iniciativas, los niveles de satisfacción de los usuarios con ellas o las demandas adicionales que tienen respecto a ellas.
(Nota: no estaría mal que, en aras de la transparencia que predican, Irekia, Open Data Euskadi, Adi!, etc. hiciesen públicos sus logs de visitas.)
Y mi triste lectura: a nadie le importa un carajo Irekia, Open Data [escribe aquí el nombre de tu CCAA], y similares. Y que los habitantes de esta piel de toro son aviones que se empeñan tozudamente en no aterrizar en ninguno de los aeropuertos de datos abiertos de Castellón que algunos políticos tienen a bien construir.
El martes (2013-04-15 en formato ISO 8601) participaré en el II Barcamp de Periodismo de Datos en Medialab Prado de 5:00 a 8:00 de la tarde.

Hablaré de Tu Tasa de Paro, proyecto del que ya hablé en otra ocasión. Y aprovecharé, claro está, para promocionar R y, en particular, el paquete MicroDatosEs.
¡Estáis invitados!
Me reconozco entusiasta de la heterodoxia. Allá donde hay comunión de pensamiento, siento la necesidad imperativa de abrir las ventanas y orear el ambiente. Y en pocos ámbitos la hay menos que en el de las estadísticas oficiales, que se toman como trasunto mismo de la realidad que aspiran a medir.
Por eso traigo a estas páginas la mención a Shadow Government Statistics, un portal que proporciona medidas alternativas de las principales magnitudes macroeconómicas (de los EE.UU.). Su autor, Walter J. Williams, ilustra así de descriptivamente su desencanto con las cifras oficiales:
One of my early clients was a large manufacturer of commercial airplanes, who had developed an econometric model for predicting revenue passenger miles. The level of revenue passenger miles was their primary sales forecasting tool, and the model was heavily dependent on the GNP (now GDP) as reported by the Department of Commerce. Suddenly, their model stopped working, and they asked me if I could fix it. I realized the GNP numbers were faulty, corrected them for my client (official reporting was similarly revised a couple of years later) and the model worked again, at least for a while, until GNP methodological changes eventually made the underlying data worthless.
Por ejemplo, en SGS, las cifras del desempleo se muestran así:

Su autor acompaña las cifras oficiales (que aparecen en el periódico, en rojo) de la medida de desempleo amplio, que suma a la anterior:
- los desempleados desanimados a corto plazo, es decir, los que pudiendo trabajar, dicen no estar buscando empleo
- los subempleados, aquellos que tienen trabajos a tiempo parcial con un número de horas que consideran insuficiente
Y sobre las curvas anteriores muestra en azul su propia estimación, que incluye la totalidad de los desempleados desanimados que, según él, fueron oficialmente declarados inexistentes tras la reforma metodológica de 1994.
Los interesados en el asunto encontrarán en Shadow Government Statistics correcciones similares a las cifras de la inflación, del PIB, etc.
Cuando hablé el otro día de la crítica del presidente de la patronal a las cifras de la EPA uno de los comentarios de los lectores señalaba —acertadamente— que la crítica de Rosell llevaba carga ideológica. ¡Obvio! Pero igualmente puede uno preguntarse si las definiciones imperantes de qué es un desempleado, qué computa en el PIB, qué entra en la cesta de la compra con la que se computa el índice de precios, etc. están igualmente cargadas ideológicamente. Aunque luego las defiendan a capa y espada (como dije, ad verecundiam) comentaristas de todo pelaje que en temas menos relevantes suelen hilar más fino y encontrarle los cinco pies al gato más intrascendente.
Sí, hoy me siento reivindicado. En efecto. El otro día escribí una entrada titulada ¿… coma cero dos por ciento? ¡Anda ya!. Y hoy Andrew Gelman, abundando en los mismos temas, titula la suya “1.7%” ha ha ha.
¿El tema de fondo? La obsesión enfermiza por la precisión y ese miedo atávico a la variabilidad y la incertidumbre que acompañan naturalmente a los fenómenos cotidianos.
Voy a partir una lanza a favor de Rosell. Aunque algún colega luego me quiera fusilar. Espero que lo podamos discutir todo luego amigablemente sea acá o en otros foros igualmente civilizados.
Las encuestas tienen algo de mágico. Parecen una versión revivida de los antiguos oráculos. No deja de sorprender que sea posible conocer la opinión de millones de personas preguntando a un par de miles de ellas, ¿verdad?
Además, los resultados de muchas encuestas se agotan en sí mismos: qué porcentaje de la gente opina esto o lo otro. Y no tienen mayor trascendencia. Ni existe un patrón contra el que medir en qué medida yerran. A lo más, una escueta ficha técnica ex-ante.
Pero existe un tipo muy notable de encuestas (a las que ya me he referido previamente) que se contrastan a los pocos días con datos reales: las electorales. Y no hace falta que abunde aquí sobre su éxito o falta de éxito predictivo. Ya se han ocupado otros del asunto, como por ejemplo aquí o aquí. (Tengo la impresión de que los profesionales de la cosa pasan dos de los años del ciclo electoral explicando por qué son tan guays y los otros dos protestando los motivos de fuerza mayor que les impidieron cumplir las expectativas que habían generado).
Claro: una cosa es decir a quién piensa uno votar y otra, votar. Son hechos distintos, obviamente, en cuya fundamental diferencia, quienes realizan los sondeos, no dejan de hacer hincapié siempre después de conocidos los recuentos oficiales.
Pero, qué pasa cuando la pregunta es ¿a quién votó Vd. en las elecciones pasadas? Aquí ya no deberían (¿o sí?) influir ese tipo de circunstancias (incluso meteorológicas) diferenciadoras. Véamoslo.
En el barómetro de enero de 2013 del CIS se tabulan las respuestas de 2483 personas (elegidas con criterio riguroso para que reflejen la realidad de la sociedad española) a ciertas preguntas. Y la tabulación se realiza de acuerdo con su recuerdo de voto en las últimas elecciones generales, las de 2011. Este recuerdo de voto debería ser mínimamente coincidente con los resultados reales en dichas elecciones, ¿verdad? Véamoslo. Haciendo en R
options(digits = 2)
library(xtable)
cis <- c(663, 545, 153, 79, 50, 154)
reales <- c( 10830693, 6973880, 1680810, 1140242, 1014263, 2299688 )
names(reales) <- names(cis) <- c("PP", "PSOE", "IU", "UPyD", "CiU", "Otros" )
tmp <- data.frame( cis = 100 * cis / sum(cis), reales = 100 * reales / sum(reales))
tmp$diff <- tmp$cis - tmp$reales
tmp$diff.pc <- 100 * tmp$diff / tmp$reales
print(xtable(tmp), type = "html")
se obtiene
|
cis |
reales |
diff |
diff.pc |
| PP |
40.33 |
45.24 |
-4.91 |
-10.86 |
| PSOE |
33.15 |
29.13 |
4.02 |
13.80 |
| IU |
9.31 |
7.02 |
2.29 |
32.55 |
| UPyD |
4.81 |
4.76 |
0.04 |
0.89 |
| CiU |
3.04 |
4.24 |
-1.20 |
-28.21 |
| Otros |
9.37 |
9.61 |
-0.24 |
-2.49 |
donde la primera columna corresponde a los porcentajes de votos obtenidos en la encuesta del CIS, la segunda a los reales (descontados en ambos casos los nulos y blancos) y las demás son las diferencias. Cierto, quedan sin computar los 55 sujetos que no recuerdan su voto y los 196 que se negaron a contestar esa pregunta. Pero a ti, lector, ¿te parece que las discrepancias están dentro de rango?
Ahora, el tema Rosell. Viene el tal señor y critica la EPA. Dizque no es fiable. Que es una encuesta. Que no se cree los números que arroja. Que si en España no hay seis millones de parados. Etc.
Y se le responde en masse con esto, esto o esto. Salvo en algunos casos, como este, la defensa de la EPA se realiza ad verecundiam.
Rosell, que es empresario, tiene que y debe ser y actuar como Tony el Gordo, el personaje de El Cisne Negro de Taleb. Y como su alter ego de la ficción, hace bien en cuestionarse números que se le dan hasta la cuarta cifra significativa como palabra de la OCDE, la UE y la OIT si no de Dios directamente.
Y es tarea del INE, de quienes se sientan irritados por esta entrada e incluso de mí mismo explicar qué se puede y qué no se puede esperar de una encuesta, sus méritos y sus deméritos, sin caer en la falacia de la reificación.
Estos días ha salido publicado un artículo mío, Microdata and k-anonymity: a quantitative approach in the Spanish context en la Revista BEIO. Trata de algunos temas de los que ya nos hemos ocupado antes en estas páginas: la anonimidad que cabe esperar en ficheros de microdatos. Y, en este caso, cuando hacen referencia a personas que viven en España.
Supongamos que se hacen públicos unos ficheros de datos en los que se han eliminado los identificadores (nombre, DNI, etc.) pero muestra ciertos datos de individuos (población de residencia, fecha de nacimiento, sexo, etc.) y otros datos (enfermedades padecidas, si ha estado en la cárcel, etc.). Es posible que haya invidiuos únicos en el fichero, es decir, que exista solo uno con esos atributos. Eso los hace reidentificables. Por ejemplo, es probable que en Ólvega (provincia de Soria) solo resida una señora nacida en una fecha determinada de los años cincuenta.
Por eso se utiliza como medida de la anonimidad la llamada k-anonimidad: cuántos individuos comparten determinados atributos en los ficheros de datos. Y uno de los resultados de mi artículo es que, conocidos el municipio de residencia, la fecha de nacimiento completa y el sexo de una persona, el 42.38% de los individuos (en España), casi veinte millones, son reidentificables, es decir, 1-anónimos.
De hecho, sabidos el municipio, el sexo y de la fecha ya sea solo el año, el año y el mes o año, mes y día, el grado de k-anonimidad viene dado por la siguiente tabla:

(Nota: n se refiere a la población total y está expresado en miles).
En realidad, incluida la demostración del lema que contiene el artículo, este es un ejercicio que podría tildarse de producto del aburrimiento. Y tal vez acertadamente.
Pero creo que tiene también una lectura que puede llamar a la precaución a la hora de exigir transparencia hasta el punto de liberar y liberar conjuntos de datos referidos a personas: entre aquellos que actualmente custodian dichos datos y el público en general —y, muy en particular, algunos sujetos dentro de ese público en general que albergan intenciones nada benignas— es de rigor que existan guardianes que mantengan lo debidamente elevado el índice de anonimidad.
(Otra nota: debo agradecer a Gregorio Serrano y Emilio Torres Manzanera el haberse prestado cordialmente a revisar los primeros manuscritos del artículo y a enriquecerlo con sus sugerencias).
Hoy, el INE, casi nos ha regalado un ejemplo perfecto de la paradoja de Simpson en la nota de prensa de las Pruebas de Acceso a la Universidad.
En efecto, según la tabla

el porcentaje de hombres aprobados superó al de mujeres en cada categoría (excepto en la muy pequeña de mayores de 45 años). Pero, sin embargo, el porcentaje de aprobados entre las mujeres supera (aunque por la mínina) al de los hombres.
Observado lo cual, aprovecho para protestar: el porcentaje de aprobados es una medida bastante rudimentaria para casi cualquier fin. Porque publicar

y no publicar nada viene a ser lo mismo. ¿No podían dar resultados desagregados de las puntuaciones obtenidas por estudiante (anónimo) y tal vez, incluso, por asignatura (tal vez con un mínimo jitter para dificultar la desanonimización)? ¡Con lo que nos gustaría enredar con esos números!
En el pasado nos hemos ocupado en estas páginas del desempleo. Hoy, día en el que se han anunciado los datos de la EPA del último trimestre de 2012, sale a la luz TTParo.es, un proyecto en el que he colaborado (aunque en el que todo lo que se ve es obra de Kaleidos) y que permite calcular tu tasa de paro personal.
Por ejemplo, en

puedo ver la evolución de la tasa de paro de aquellos que son como yo desde el 2005 y compararla con la general.
Desde hace mucho tiempo vengo repitiendo que la forma en la que se informa de los resultados trimestrales de la EPA tiene un sesgo administrativo (por provincias o comunidades autónomas) con reminiscencias de la sección de deportes (el equipo de mi ciudad es mejor que el de la tuya). Pero provincia, comunidad autónoma y, en cierta medida, el sexo, no son las variables determinantes que nos afectan a la hora de buscar empleo: existen otras más importantes que nos encajan en segmentos relativamente estancos y en los que, en definitiva, nos movemos.
Y la información sobre este fenómeno con una dimensión micro tan humana debería, creo yo, reflejar mejor estas circunstancias.
(Y sí, hemos usando subterráneamente R y el paquete MicroDatosEs).
|