Predecir a los predictores por incordiar

2017-9-5 (Última modificación: 2017-9-5)

Sirve esta entrada para hacer saber lo fundamental del trabajo de fin de master (TFM en lo que sigue) de Susana Huedo (que busca trabajo y es una chica muy sabida, aplicada y espabilada) en el CIFF. Los TFM que propongo y acabo supervisando jamás tienen vocación de criogénesis anaquélica. A Susana le sugerí un tema muy punk y con recorrido: [tratar de] predecir a los predictores. Fundamentalmente, para joder.

Los chefs de encuestas electorales tienen dos discursos —uno previo y otro posterior a la publicación de los resultados—, una serie de recetas y datos que solo excepcionalmente publican. Dirán que se ciñen a una metodología científica, etc. Literatura.

Existe una metodología alternativa, una hipótesis malévola, que es la que explora el TFM: que los chefs ignoran sus datos y, simplemente, emplatan el consenso de las últimas encuestas publicadas con aliño del sesgo ideológico del medio que apoquina. En términos matematicoides,

encuesta ~ consenso + sesgo

Esta manera de cocinar no deja de ser una hipótesis en tanto que no tengamos metafísico acceso al pensamiento de quienes, indubitablemente, lo negarán por la cuenta que les trae. Pero podríamos usar datos para estimar su plausibilidad. En particular, podríamos tratar de predecir sus predicciones usando ese esquema como modelo.

El consenso, tal como lo tiene calculado Susana, tiene este aspecto:

El ajuste es un tanto menos regular que los que se encuentran publicados por ahí porque solo utilizan información previa. Los splines y demás, usan ventanas que incluyen puntos del futuro incognoscibles hoy.

El sesgo (me limito al del PP aquí) por medio puede estimarse mediante una regresión lineal (donde la variable dependiente es la diferencia entre el valor publicado y el consenso y la independiente el medio) y no sorprenderá a nadie:

Algunas de las predicciones obtenidas a toro pasado tienen esta pinta:

Que no está mal del todo, aunque son las que dormirán en una estantería. Las más interesantes deberían ser las que debieran dar continuidad a este trabajo: una aplicación web que anuncie los resultados que publicarían mañana los distintos medios.

Esa es una de las futuras líneas de trabajo que emanan de este.

La otra es aprovechar parte del código generado para armar un protopaquete de R dirigido al análisis electoral en España. De momento, aunque solo fuese eso, que pudiese descargar los datos que hay por ahí. Y sobre eso, lo que sea menester.

Nota metodológica: Hay una manera más sofisticada y preferible de ajustar el modelo anterior. Nótese que se calcula primero el consenso y luego el sesgo. Pero una vez obtenido el sesgo, éste podría utilizarse para afinar el consenso. Etc. En definitiva, que consenso y sesgo deberían estimarse de una. Pero esto, recuerdo, es un TFM.