El número efectivo de partidos es el nombre de una página de la Wikipedia, que contiene la fórmula
$$ N = \frac{1}{\sum_i p_i^2}$$
y excipiente alrededor.
Aplicada a España (usando datos del CIS como proxy),
Como casi siempre, el código:
library(rvest) library(rvest) library(reshape2) library(plyr) library(zoo) url <- "http://www.cis.es/cis/export/sites/default/-Archivos/Indicadores/documentos_html/sB606050010.html" raw <- read_html(url) tmp <- html_nodes(raw, "table") tmp <- html_table(tmp[[2]], fill = TRUE) colnames(tmp)[1] <- "partido" tmp <- tmp[!is.na(tmp$partido),] tmp <- tmp[1:30,] tmp <- melt(tmp, id.
No auncié mi pequeña charla/taller del sábado pasado sobre microdatos porque la sala tenía un aforo ínfimo y en el Meetup correspondiente había lista de espera.
Pero cuelgo el material (que es un guión; no hay presentación) por si a alguien le resulta útil.
Pues lo que digo en el título. La petición, que se autoexplica, es esta, tiene que ver con esto y si la firmas estarás contribuyendo a un buen fin.
El CIS realiza barómetros todos los meses menos uno. Pasado un tiempo (es octubre y el último publicado es de julio) coloca los microdatos en su banco de datos.
Aparte de ficheros .pdf que lo explican todo (pero que no dejan de ser .pdf), publica dos ficheros. Uno de datos en ancho fijo (prefijo DA) y otro con código SPSS (prefijo ES) con los consabidos (¿lo son? ¡felicidades si no!) encabezados DATA LIST, VARIABLE LABELS, VALUE LABELS, y MISSING VALUES.
No estoy muy al tanto de la regulación que afecta a la confección de encuestas electorales. Me consta la existencia de algunas normas, como la prohibición de publicarlas durante los últimos días de la campaña. No sé si fiarme de mi memoria a la hora de añadir alguna relativa a cuestiones técnicas, como la de que vayan acompañadas de una ficha metodológica.
Pero, y aunque sea alérgico a la regulación en general, me atrevo a apuntar una modificación que podría tener sus méritos.
Con los datos
pcts <- cbind( c(35.7, 19.6, 6.6, 16.6, 9.6), c(0.3, 0.2, 0.2, 0.3, 0.8), c(25.0, 14.9, 10.7, 32.7, 12.9), c(1.6, 8.0, 8.5, 6.5, 7.9), c(11.0, 18.7, 7.9, 12.7, 8.0), c(3.2, 21.5, 52.9, 16.7, 47.9) ) totales <- c(1102, 975, 596, 638, 174) tabla <- round(t(pcts * totales / 100)) y el concurso de
library(MASS) biplot(corresp(tabla, nf = 2)) genero
que a lo mejor no resulta demasiado interesante si no añado que las columnas se refieren a partidos políticos y las filas a cadenas en las que, según el CIS, sus votantes prefieren para seguir la actualidad política.
Voy a partir una lanza a favor de Rosell. Aunque algún colega luego me quiera fusilar. Espero que lo podamos discutir todo luego amigablemente sea acá o en otros foros igualmente civilizados.
Las encuestas tienen algo de mágico. Parecen una versión revivida de los antiguos oráculos. No deja de sorprender que sea posible conocer la opinión de millones de personas preguntando a un par de miles de ellas, ¿verdad?
Además, los resultados de muchas encuestas se agotan en sí mismos: qué porcentaje de la gente opina esto o lo otro.