Voy a partir una lanza a favor de Rosell a cuenta de la EPA

Voy a partir una lanza a favor de Rosell. Aunque algún colega luego me quiera fusilar. Espero que lo podamos discutir todo luego amigablemente sea acá o en otros foros igualmente civilizados.

Las encuestas tienen algo de mágico. Parecen una versión revivida de los antiguos oráculos. No deja de sorprender que sea posible conocer la opinión de millones de personas preguntando a un par de miles de ellas, ¿verdad?

Además, los resultados de muchas encuestas se agotan en sí mismos: qué porcentaje de la gente opina esto o lo otro. Y no tienen mayor trascendencia. Ni existe un patrón contra el que medir en qué medida yerran. A lo más, una escueta ficha técnica ex-ante.

Pero existe un tipo muy notable de encuestas (a las que ya me he referido previamente) que se contrastan a los pocos días con datos reales: las electorales. Y no hace falta que abunde aquí sobre su éxito o falta de éxito predictivo. Ya se han ocupado otros del asunto, como por ejemplo aquí o aquí. (Tengo la impresión de que los profesionales de la cosa pasan dos de los años del ciclo electoral explicando por qué son tan guays y los otros dos protestando los motivos de fuerza mayor que les impidieron cumplir las expectativas que habían generado).

Claro: una cosa es decir a quién piensa uno votar y otra, votar. Son hechos distintos, obviamente, en cuya fundamental diferencia, quienes realizan los sondeos, no dejan de hacer hincapié siempre después de conocidos los recuentos oficiales.

Pero, qué pasa cuando la pregunta es ¿a quién votó Vd. en las elecciones pasadas? Aquí ya no deberían (¿o sí?) influir ese tipo de circunstancias (incluso meteorológicas) diferenciadoras. Véamoslo.

En el barómetro de enero de 2013 del CIS se tabulan las respuestas de 2483 personas (elegidas con criterio riguroso para que reflejen la realidad de la sociedad española) a ciertas preguntas. Y la tabulación se realiza de acuerdo con su recuerdo de voto en las últimas elecciones generales, las de 2011. Este recuerdo de voto debería ser mínimamente coincidente con los resultados reales en dichas elecciones, ¿verdad? Véamoslo. Haciendo en R

options(digits = 2)

library(xtable)

cis <- c(663, 545, 153, 79, 50, 154)
reales <- c( 10830693, 6973880, 1680810, 1140242, 1014263, 2299688    )
names(reales) <- names(cis) <- c("PP", "PSOE", "IU",  "UPyD", "CiU", "Otros" )

tmp <- data.frame( cis = 100 * cis / sum(cis), reales = 100 * reales / sum(reales))
tmp$diff <- tmp$cis - tmp$reales
tmp$diff.pc <- 100 * tmp$diff / tmp$reales

print(xtable(tmp), type = "html")

se obtiene

cis reales diff diff.pc
PP 40.33 45.24 -4.91 -10.86
PSOE 33.15 29.13 4.02 13.80
IU 9.31 7.02 2.29 32.55
UPyD 4.81 4.76 0.04 0.89
CiU 3.04 4.24 -1.20 -28.21
Otros 9.37 9.61 -0.24 -2.49

donde la primera columna corresponde a los porcentajes de votos obtenidos en la encuesta del CIS, la segunda a los reales (descontados en ambos casos los nulos y blancos) y las demás son las diferencias. Cierto, quedan sin computar los 55 sujetos que no recuerdan su voto y los 196 que se negaron a contestar esa pregunta. Pero a ti, lector, ¿te parece que las discrepancias están dentro de rango?

Ahora, el tema Rosell. Viene el tal señor y critica la EPA. Dizque no es fiable. Que es una encuesta. Que no se cree los números que arroja. Que si en España no hay seis millones de parados. Etc.

Y se le responde en masse con esto, esto o esto. Salvo en algunos casos, como este, la defensa de la EPA se realiza ad verecundiam.

Rosell, que es empresario, tiene que y debe ser y actuar como Tony el Gordo, el personaje de El Cisne Negro de Taleb. Y como su alter ego de la ficción, hace bien en cuestionarse números que se le dan hasta la cuarta cifra significativa como palabra de la OCDE, la UE y la OIT si no de Dios directamente.

Y es tarea del INE, de quienes se sientan irritados por esta entrada e incluso de mí mismo explicar qué se puede y qué no se puede esperar de una encuesta, sus méritos y sus deméritos, sin caer en la falacia de la reificación.

4 comentarios sobre “Voy a partir una lanza a favor de Rosell a cuenta de la EPA

  1. efau 11 febrero, 2013 16:37

    Es evidente que la crítica de Rosell llevaba carga ideológica -¡es su trabajo!-, y que la crítica no tenía su razón de ser en una interesante y sana reflexión metodológica. “Es pura estadística”, dijo el patrón. Y esta desconfianza, creo, forma parte de nuestro déficit científico. No quiero decir que Rosell se equivoque, porque la distorsión y representatividad no son incompatibles. Lo que quiero decir es que se tiende a simplificar y que las únicos datos que nos llegan son el paro y el ipc. Ni siquiera datos de empleo o de actividad. Aparentemente debe hablarse con cifras simples y contundentes. Y esto crea un exceso de atención a datos que sabemos que no sólo son de fiabilidad relativa sino que, aún peor, no enseñan más que el marco del dibujo. Las tendencias, procesos y relaciones estadística y epistemológicamente válidas son lo que debería llamarnos la atención, no que el paro sea del 26.02%; un dato que simplifica tanto el instrumento como el objeto de estudio, pero por supuesto en los periódicos queda mejor poner SEIS MILLONES DE ESPAÑOLES EN PARO.

    Si Rosell hubiera tenido el día habría dicho que los datos registrados por el Sepe tampoco son fiables por la existencia de falsos parados que compatibilizan fraudulentamente prestaciones y subsidios con sueldos de sobre; así que la proporción de paro es del 20%… si llega. La economía sumergida es el pan de cada día en los países mediterráneos. He hecho entrevistas y encuestas donde los sujetos me han confesado (off the record y empujados por las contradicciones) haberme mentido deliberadamente. Porque votar al PP no queda bien, y cobrar y pagar en negro tampoco.

    Saber que tales distorsiones ocurren y que los datos que aparecen en Eurostat no son, al fin y al cabo, más que una agregación de estas experiencias, nos empuja muchas veces a utilizar indicadores indirectos… producción, consumo, movimientos de capital… que obviamente también dejan mucho que desear cuanto a exactitud. Y aquí es cuando a los que querríamos -o mejor dicho: habríamos querido- hacer investigación (investigación honesta), nos entra una punzada en el estómago. Sin embargo la mentira también forma parte del fenómeno, y podemos elaborar, como ya he dicho, modelos de relaciones más allá de una proporción.

  2. efau 11 febrero, 2013 16:39

    efau :
    Es evidente que la crítica de Rosell llevaba carga ideológica -¡es su trabajo!-, y que la crítica no tenía su razón de ser en una interesante y sana reflexión metodológica. “Es pura estadística”, dijo el patrón. Y esta desconfianza, creo, forma parte de nuestro déficit científico. No quiero decir que Rosell se equivoque, porque la distorsión y representatividad no son incompatibles. Lo que quiero decir es que se tiende a simplificar y que las únicos datos que nos llegan son el paro y el ipc. Ni siquiera datos de empleo o de actividad. Aparentemente debe hablarse con cifras simples y contundentes. Y esto crea un exceso de atención a datos que sabemos que no sólo son de fiabilidad relativa sino que, aún peor, no enseñan más que el marco del dibujo. Las tendencias, procesos y relaciones estadística y epistemológicamente válidas son lo que debería llamarnos la atención, no que el paro sea del 26.02%; un dato que simplifica tanto el instrumento como el objeto de estudio, pero por supuesto en los periódicos queda mejor poner SEIS MILLONES DE ESPAÑOLES EN PARO.
    Si Rosell hubiera tenido el día habría dicho que los datos registrados por el Sepe tampoco son fiables por la existencia de falsos parados que compatibilizan fraudulentamente prestaciones y subsidios con sueldos de sobre; así que la proporción de paro es del 20%… si llega, debería haber dicho Rosell. La economía sumergida es el pan de cada día en los países mediterráneos. He hecho entrevistas y encuestas donde los sujetos me han confesado (off the record y empujados por las contradicciones) haberme mentido deliberadamente. Porque votar al PP no queda bien, y cobrar y pagar en negro tampoco.
    Saber que tales distorsiones ocurren y que los datos que aparecen en Eurostat no son, al fin y al cabo, más que una agregación de estas experiencias, nos empuja muchas veces a utilizar indicadores indirectos… producción, consumo, movimientos de capital… que obviamente también dejan mucho que desear cuanto a exactitud. Y aquí es cuando a los que querríamos -o mejor dicho: habríamos querido- hacer investigación (investigación honesta), nos entra una punzada en el estómago. Sin embargo la mentira también forma parte del fenómeno, y podemos elaborar, como ya he dicho, modelos de relaciones más allá de una proporción.

  3. Daniel 11 febrero, 2013 17:28

    Independientemente de la precisión de la encuesta existen unos datos serios y oficiales que sirven como cota inferior del paro según la EPA, que son los datos de personas inscritas en el antiguo INEM (ahora SEPE).
    Las diferencias entre estas dos cifras dependen de qué consideramos “parado”. En el INEM está claro, persona que no trabaja que está inscrita, mientras que la EPA mete aproximadamente a un millón de parados más, considerando a la gente que no trabaja pero que no está necesariamente inscrita en el INEM.
    Mientras el INEM nos muestre 5 millones de parados, las declaraciones de Rossell no dejan de ser una manipulación partidista de la realidad. Les interesa negar la evidencia y que la gente piense que la reforma laboral fue buena.
    http://www.sepe.es/contenido/estadisticas/datos_avance/datos/index.html

Los comentarios están desabilitados.