Cis

No sé mucho de filosofía de la ciencia, pero sí de informática. Así que, en cierto modo, soy como aquel tonto del martillo. Pero tal vez la analogía que presento debajo pueda servirle a alguien.

Existe un tipo de bases de datos distribuidas llamadas eventualmente consistentes. La promesa que hacen es que si cambias un dato, al cabo de un periodo de tiempo indeterminado, todas sus réplicas convergirán al mismo valor. En tanto, lecturas de nodos distintos pueden dar resultado distintos y contradictorios. Por ejemplo, los likes de una red social pueden estar almacenados en una de tales bases de datos y puede que un usuario en Tokio vea 34 likes a un vídeo y otro en Madrid, 35. Al cabo de un tiempo ambos acabarán viendo 35 (o, puede que 37 y 36: nada está garantizado al 100%).

Escribió Andrew Gelman en su blog lo que él denomina una historia selectiva o más humildemente, su personal reconstrucción cruda de la historia de las encuestas políticas y la predicción electoral. Que consta, según él, de los siguientes episodios (traducidos con la ayuda de Gemini):

Antes de 1900, los trabajadores políticos contaban los votos, era hiperlocal y laborioso.
A partir de 1900, poblaciones móviles, mayor anonimato, menor participación electoral, motivación para pensar en la opinión pública en lugar de solo contar votos.
1936, la encuesta de Literary Digest (y cómo se podría haber corregido), la encuesta de Gallup.
Encuestas comerciales y de opinión, muestreo por conglomerados, muestreo por cuotas, desafíos de la representatividad.
De las encuestas presenciales a las encuestas telefónicas y a los paneles de internet: el modo de recolección de datos determina el método de muestreo.
Ajustes de la muestra, tasas de respuesta decrecientes y diferentes formas de falta de respuesta.
Racionalidad del voto, racionalidad de responder a una encuesta, cómo han cambiado estos a lo largo de las décadas.
Precisión de las encuestas preelectorales y de las encuestas a pie de urna desde 1948.
Variación de las encuestas preelectorales durante la campaña.
El estado de nuestra comprensión en la década de 1970: Jimmy the Greek en 1972, variación de las encuestas en 1976, cualquier cosa podría pasar.
Polarización geográfica y el ascenso del estado indeciso (swing state).
Polarización política y el declive del votante indeciso (swing voter).
La ciencia política de los años 70/80 se incorpora a la sabiduría convencional de los 90: “Es la economía, estúpido”.
La era de “nada importa”: 1992 y 1996, y nuestro pronóstico basado en fundamentales.
Elecciones reñidas desde 2000 en adelante: estados indecisos, encuestas estables y un objetivo de pronóstico fijo.
El auge de la agregación de encuestas y la predicción electoral probabilística.
La falta de respuesta diferencial como explicación de la variación en las encuestas.
Altas expectativas y los errores de las encuestas de 2016/2020/2024.
Elecciones de mitad de mandato y equilibrio de partidos.
Bases demográficas cambiantes de apoyo de los dos partidos.
¿Quiénes son los no votantes y qué quieren?
Información distinta a la de las encuestas “carrera de caballos” (horse-race).
Elecciones primarias, terceros partidos y otras complejidades.
Mirando hacia el futuro.

Es evidente que omite dolosamente las egregias contribuciones a la materia que debemos a nuestros incomparables y nunca debidamente reconocidos Tezanos y Alamillos. Sospecho que es culpa ya sea del culposo sesgo anglocéntrico de Gelman o de la subrepticia pervivencia de la leyenda negra, que lleva presuponiendo malo todo lo español de Felipe II para acá. Celebremos en todo caso que el “que inventen ellos” nos mantenga a los españoles más alienados con el bien, la verdad y la belleza que si hubiésemos adoptado acríticamente y por puro seguidismo técnicas muestrales bárbaras y grotescas.

El CIS publicó recientemente los resultados de su barómetro de septiembre de 2025 basados en 4122 entrevistas.

Una de las preguntas realizadas, la primera, fue

Durante los últimos doce meses, para realizar sus gestiones bancarias, ¿qué tres canales principales ha utilizado Ud.? Dígamelos por favor por orden, según frecuencia de uso.

Los resultados obtenidos fueron

Otra que se realiza en todos los barómetros se refiere a la participación y recuerdo de voto en las últimas elecciones generales, las de 2023 en este caso. Los resultados obtenidos fueron

Después de superado el último pico de trabajo y una afonía galopante, vuelvo a la carga con un viejo tema: el de la fiabilidad de las encuestas.

El otro día —no importa dónde— presencié los denodados y desencaminados esfuerzos de alguien —tampoco importa quién— por explicar primero y convencer después de los beneficios de la llamada cocina de las encuestas electorales. Constantado la inoperancia de los argumentos técnicos, estuve pensando un buen rato en buscar símiles cotidianos. Di con este, que es el que comparto por referencia para mí y puede que para otros.

Tienes ese amigo que dizque va a llegar en 30 minutos y lo hace al cabo de una hora. Cuando dice 15 minutos, tarda 30. Convierte los 10 en 20. Etc. Por un lado están las cifras declaradas (30, 15, 10,…) y, por otro, las observadas (60, 30, 20,…). No hace falta ser muy lince para

Cuando vivía en Tailandia solía decir sobre la cultura corporativa de ese país que daba igual que las cosas se hiciesen bien o mal con tal de que se hiciesen tarde.

INE, CIS, ISCIII, etc., son un poco mejores: da igual que los datos se publiquen cuando ya no hacen falta con tal de que sean perfectos.

La pregunta es: ¿deberían publicarse datos imperfectos y con caveats pronto?

Nota: Eso ya se hace con indicadores importantes (véase esto).

Muchos hablan de las cocinas de la que salen los resultados de las encuestas electorales pero pocos las han visto. ¿Qué ocurre en ellas y qué problemas tratan de resolver? Lee Forecasting elections with non-representative polls y lo verás (bien hecho, no a lo Tezanos el Metodólogo).

Leo (fuente):

[…] en su comparecencia del año pasado comentó algo sobre un pago al exterior de 174 000 euros, correspondiente a la cuota del consorcio de infraestructuras científicas, ERIC, que, como bien sabe, es el consorcio internacional que se encarga de realizar la encuesta social europea. El año pasado dijo que le preocupaba que 2017 fuese el último año en el que España formase parte de esa encuesta social europea porque teníamos cuota de país invitado y no de socio de la infraestructura, algo que nos parece preocupante. Veo que este año en los presupuestos hay un pago al exterior, pero de menor importe, de 139 000 euros. En este sentido, le quería preguntar si nos han hecho un descuento, una tarjeta de socios, una de país pobre…

Según Gelman son:

Generalizar de muestra a población (o de pasado a futuro).
Generalizar de grupo de control a grupo de tratamiento (relacionado con el asunto de la causalidad).
Generalizar a partir de los indicadores observados a los parámetros de interés.

Dos de ellos, el primero y el tercero, son del máximo interés para el CIS, pero ¡ea, ea, ea, Tezanos no se entera!

Escribo hoy acerca del CIS y la cocina de la intención de voto. Lo hago desde la ignorancia informada en esos temas y sin pretensión alguna de ser o parecer más listo que otros.

El CIS realiza unas encuestas (con un muestreo amplio y bien diseñado, cuentan), de las que obtiene, entre otras cosas, una serie de datos, $x$ que incluyen simpatía, recuerdo de voto, etc. Existe por otra parte un valor enteléquico, $y$, no siempre observable, que conocemos por resultados electorales si se votase hoy o algo parecido. La llamada cocina es simplemente una función $f$ tal que $\hat{y} = f(x)$ es próxima a $y$. Esta función se construye gracias a que históricamente, cada vez que se convocan elecciones, se han observado parejas $(x, y)$.

El mecanismo autocorrector de la ciencia (y el papel del cotilleo)

El egregio episodio omitido en la historia "oficial" de las encuestas electorales

¿Nos podemos fiar de los barómetros del CIS?

Nuevo vídeo en YouTube. Esta vez, sobre encuestas.

La "cocina", para anumeristas y conspiranoicos

¿Deberían publicarse datos "en beta"?

"Cocinas electorales" con encuestas muy sesgadas

Encuesta Social Europea: un cociente

Los tres retos de la inferencia estadística

Acerca del CIS y la cocina