Encuestas

El egregio episodio omitido en la historia "oficial" de las encuestas electorales

Escribió Andrew Gelman en su blog lo que él denomina una historia selectiva o más humildemente, su personal reconstrucción cruda de la historia de las encuestas políticas y la predicción electoral. Que consta, según él, de los siguientes episodios (traducidos con la ayuda de Gemini):

  1. Antes de 1900, los trabajadores políticos contaban los votos, era hiperlocal y laborioso.
  2. A partir de 1900, poblaciones móviles, mayor anonimato, menor participación electoral, motivación para pensar en la opinión pública en lugar de solo contar votos.
  3. 1936, la encuesta de Literary Digest (y cómo se podría haber corregido), la encuesta de Gallup.
  4. Encuestas comerciales y de opinión, muestreo por conglomerados, muestreo por cuotas, desafíos de la representatividad.
  5. De las encuestas presenciales a las encuestas telefónicas y a los paneles de internet: el modo de recolección de datos determina el método de muestreo.
  6. Ajustes de la muestra, tasas de respuesta decrecientes y diferentes formas de falta de respuesta.
  7. Racionalidad del voto, racionalidad de responder a una encuesta, cómo han cambiado estos a lo largo de las décadas.
  8. Precisión de las encuestas preelectorales y de las encuestas a pie de urna desde 1948.
  9. Variación de las encuestas preelectorales durante la campaña.
  10. El estado de nuestra comprensión en la década de 1970: Jimmy the Greek en 1972, variación de las encuestas en 1976, cualquier cosa podría pasar.
  11. Polarización geográfica y el ascenso del estado indeciso (swing state).
  12. Polarización política y el declive del votante indeciso (swing voter).
  13. La ciencia política de los años 70/80 se incorpora a la sabiduría convencional de los 90: “Es la economía, estúpido”.
  14. La era de “nada importa”: 1992 y 1996, y nuestro pronóstico basado en fundamentales.
  15. Elecciones reñidas desde 2000 en adelante: estados indecisos, encuestas estables y un objetivo de pronóstico fijo.
  16. El auge de la agregación de encuestas y la predicción electoral probabilística.
  17. La falta de respuesta diferencial como explicación de la variación en las encuestas.
  18. Altas expectativas y los errores de las encuestas de 2016/2020/2024.
  19. Elecciones de mitad de mandato y equilibrio de partidos.
  20. Bases demográficas cambiantes de apoyo de los dos partidos.
  21. ¿Quiénes son los no votantes y qué quieren?
  22. Información distinta a la de las encuestas “carrera de caballos” (horse-race).
  23. Elecciones primarias, terceros partidos y otras complejidades.
  24. Mirando hacia el futuro.

Es evidente que omite dolosamente las egregias contribuciones a la materia que debemos a nuestros incomparables y nunca debidamente reconocidos Tezanos y Alamillos. Sospecho que es culpa ya sea del culposo sesgo anglocéntrico de Gelman o de la subrepticia pervivencia de la leyenda negra, que lleva presuponiendo malo todo lo español de Felipe II para acá. Celebremos en todo caso que el “que inventen ellos” nos mantenga a los españoles más alienados con el bien, la verdad y la belleza que si hubiésemos adoptado acríticamente y por puro seguidismo técnicas muestrales bárbaras y grotescas.

Representados pero no representativos

La expresión que da título a la entrada procede de un escrito de Andrew Gelman. Aunque se refiere a un problema estadístico muy concreto, la he podido aplicar en otros contextos. Es uno de esos conceptos que una vez uno tropieza con él, no puede dejar de verlo en todas partes.

Gelman se refería originalmente al problema de la reponderación de las encuestas. Desafortunadamente, por muy aleatorio que sea su diseño, terminan mostrando sesgos. Por no hablar de las que se realizan en periódicos, Twitter, etc. Existen técnicas que, según la teoría, mitigan en cierta medida el problema y permiten realinear mejor o peor sus resultados con la realidad. Para ilustrar el uso de una de estas técnicas, Gelman et al. realizaron una encuesta extrema en los foros de un videojuego con el objetivo de determinar si a partir de la opinión de un conjunto de gamers, podría reconstruirse la general e ilustrar, de paso, una serie de técnicas de su autoría.

¿Se ha duplicado realmente el número de personas que consumen alcohol a diario en la provincia de Madrid?

Me he enterado por esto de una noticia que recoge, por ejemplo, Europa Press, y de donde extraigo un párrafo que lo dice casi todo:

El secretario de Estado de Sanidad, Javier Padilla, ha advertido este miércoles que el número de personas que consumen alcohol a diario en la Comunidad de Madrid “casi se ha duplicado” desde el año 2000, mientras que en el conjunto de España aumenta “de forma muy pequeña”, y ha acusado a la presidenta regional…

Una serie de asuntos sobre encuestas, mercados de predicciones y su intersección

Este es un largo artículo de Andrew Gelman sobre lo que fue el gran pequeño tema de hace unas semanas: ¿funciona eso de preguntar en las encuestas sobre lo que opinan los vecinos o familiares de los encuestados? ¿Qué nos dice la evidencia?

Escribí una vez (aquí) sobre las cuestiones éticas y económicas que subyacen en los mercados de predicciones. El resumen es más o menos que estos mercados generan grandes externalidades positivas, pero que los agentes llamados a operar en ellos no pueden capturar suficiente valor, no les sale a cuenta. Por eso, algunos han llegado a plantear la posibilidad de subvencionarlos —es decir, ofrecerles incentivos externos— para que participen. Pero el hecho de que se intenten manipular (como se cuenta aquí) es, en el fondo, una buena noticia: no son irrelevantes.

¿A quién crees que van a votar tus vecinos?

La historia, telegráficamente, es así:

  1. Hubo unas elecciones hace unos pocos días en EEUU.
  2. Existieron las concomitantes encuestas, predicciones y… mercados de apuestas.
  3. De entre los últimos, Polymarket se destacó por asignar unas probabilidades de victoria a Trump muy superiores a las del bendito consenso.
  4. Hubo gente muy sabida que criticó mucho a Polymarket. El argumento principal era:
    1. En Polymarket se juega con dinero.
    2. La gente rica tiende a tener más querencia por Trump.
    3. La gente rica tiende a tener más querencia por los mercados, las apuestas, etc.
    4. La gente rica que apoya a Trump está sobrerrepresentada entre los usuarios de Polymarket —a diferencia de lo que ocurre, por ejemplo, en Metaculus— y eso sesga el mercado.
  5. Se supo que un solo inversor había realizado pujas muy elevadas en Polymarket.
  6. Incluso se especuló si ese inversor era realmente Elon Musk (y que intervenía en él para influir maliciosamente en el proceso electoral).
  7. Este inversor ha acabado ganando bastante dinero (unas cuantas decenas de millones de euros) con sus apuestas.

Se ha sabido, no obstante, que el inversor en cuestión es un tal Théo, de Francia.

Problemas de los promedios de encuestas electorales

El otro día, al hablar de las encuestas electorales y su relación con la predicción electoral, me referí tangencialmente —y, ahora que lo pienso, un tanto confusamente— a los promedios de encuestas. Vine a decir que los promedios de encuestas como

de la Wikipedia constituyen una primera aproximación —burda— al problema de la predicción electoral cuando, realmente, deberían considerarse otro nowcast.

Estos promedios de encuestas deberían ser más fiables que las encuestas particulares, aunque solo sea porque utilizan más información. Sin embargo, están expuestas a una serie de problemas como los que se anuncian/denuncian aquí.

Encuestas vs predicciones electorales

I.

Imaginemos que estamos viendo un partido de fútbol en la tele. Arriba, a la izquierda, hay un par de cifras: es el marcador que nos dice cómo va el partido.

En un mundo paralelo, en lugar del resultado provisional (p.e., 0-0 al comenzar el partido), el marcador podría mostrar la predicción del resultado al acabar el encuentro. Podría suceder que en el minuto cero indicase algo así como 3-2 si tal fuese la mejor estimación posible del resultado final.

Buscándole las cosquillas al "Indicador Multidimensional de Calidad de Vida"

El IMCV es esto. (Brevemente: un indicador experimental del INE que combina datos de varias encuestas, las agrega con unos pesos y produce unos números que permiten comparar CCAA entre sí y a lo largo del tiempo).

Una característica muy amena del IMCV es que permite recalcular en índice con pesos ad hoc aquí.

Con los pesos originales, el indicador (de 2021) queda así:

Por probar algo, he puesto a cero todos los pesos menos el que se refiere, nada menos, que a Ocio y relaciones sociales por ver qué pasa:

Variaciones de la opinión sobre fenómenos pretéritos

Los fabricantes de encuestas suelen estudiar opinión de la ciudadanía acerca de un fenómeno futuro: unas elecciones, etc. Esas opiniones suelen variar en el tiempo, dando lugar a los sesudos análisis que nos regala la prensa habitual.

Pero en alguna rara ocasión, estudian también nuestra opinión sobre fenómenos pasados y es entretenido preguntarse por los motivos de la fluctuación de los resultados.

Comienzo por un ejemplo clásico. Por si no se lee bien, el título del gráfico explica que se trata de los resultados de una encuesta realizada en Francia acerca de la nación que más contribuyó a la derrota de Alemania en 1945.