¿Por qué el empate de la CUP es más raro de lo que parece (y de lo que yo mismo digo)?

Menos el de un presunto profesor,

todos los análisis que he visto al respecto (1, 2, 3), incluido el mío, coinciden en señalar que la probabilidad de empate en el muy manido acto asambleario de la CUP es relativamente alta: alrededor del 1,5%. Y más todavía si se tienen en cuenta los resultados de las votaciones previas.

Es pequeña, cierto, pero menor es aún la probabilidad de que jamás ocurra algo poco probable.

Esta entrada va a servir para cuestionar esa cifra (insisto, mía también) y argumentar que la probabilidad es significativamente menor. Hay que advertir que el recurso a la distribución binomial tiene poco sentido en estos contextos. Principalmente, porque depende de un parámetro, p, que, ¿cómo se determina? p es únicamente la proporción de votantes que se decantaron por el sí. Si p = 0.5 es solo porque hubo un empate. El argumento hiede a tautología frecuentista. La gente, como algún comentarista ha señalado, no vota de la misma manera en que una moneda que se lanza al aire repetidas veces. Existe una diferencia sustancial (i.e., de sustancia) entre ambos tipos de fenómenos aleatorios.

Si 1515 personas votaron sí, no tiene sentido calcular la probabilidad de que lo hubieran hecho 1513, que es lo que hace implícitamente el usuario de la binomial. Sí que tendría sentido, sin embargo, calcular la probabilidad de que en 3030 tiradas de una moneda apareciesen 1513 caras después de haber observado 1515 en una ronda previa de 3030 tiradas.

De hecho, además, como indica Kiko Llaneras,

En EL ESPAÑOL hemos tomado los resultados de las elecciones generales del 20 de diciembre. Nos hemos fijado en los 300 pueblos que tienen entre 3.000 y 4.000 habitantes y nos hemos hecho una pregunta: ¿En cuántos hubo un empate entre los dos partidos que quedaron primero y segundo? Sólo en uno de los 300.

Uno de trescientos está, de hecho, en el límite de la significancia estadística para la hipótesis de partida de que la probabilidad de empate es de 1.5% (dejo los detalles al lector).

Así que me planteo el siguiente problema. Una población de entre 3000 y 4000 personas (número elegido al azar uniformemente) se plantea una votación sobre una materia en disputa. El apoyo estimado de dicha propuesta está entre el 40% y el 60% (nota: un bayesiano querría reconocer conceptos en ese enunciado). Precisamente porque la propuesta está reñida y para conocer el porcentaje real de apoyo de la propueta es que se plantea la votación. La pregunta es: ¿cuál sería una buena estimación de la probabilidad de empate?

Nótese que, de entrada, la probabilidad es, a lo sumo, la mitad de 1.5%: ¡una condición necesaria para el empate es que el número de votantes sea par (algo que ningún analista advirtió, creo)!

El código que planteo es

foo <- function(n){
  cuantos <- sample(desde:hasta, n, replace = T)
  p <- .4 + .2 * runif(n)
  sies <- mapply(function(a, b) rbinom(1, a, b), cuantos, p)
  sies == cuantos - sies
}
 
100 * mean(foo(1000000))

La ejecución es un ejercicio para mis lectores. Solo adelanto que el resultado es más próximo a la estimación del presunto que a la de los demás.

Y las notas:

  • Cada cual es libre de jugar con las prioris.
  • No está prohibido usar betas en lugar de uniformes.
  • ¿Me dejo algo?

8 comentarios sobre “¿Por qué el empate de la CUP es más raro de lo que parece (y de lo que yo mismo digo)?

  1. VD 30 diciembre, 2015 17:29

    Presunto, ¿eh?

    Bueno, un caso de libro de zapatero a tus zapatos seguido de un sostenella y no enmendalla

  2. Alanítico 30 diciembre, 2015 17:44

    Niego la mayor, votar no puede ser un suceso aleatorio, además tras dos votaciones no simultáneas (los jugadores observan el resultado) me opongo a que se suponga que se trata de sucesos independientes, por lo que la probabilidad de que se repita el resultado (o parte de él), se debería considerar prácticamente 1, con esto quiero decir que es poco probable que haya “fugas ideológicas”, las puede haber pero resultan insignificantes dentro de la masa muestral, cualquier resultado que ofrezcamos debe ser fuertemente determinista o al menos recoger la correlación de los resultados previos. La condición de que el número de votantes sea par no es ni suficiente ni necesaria a priori, el porqué es simple, el número de votantes entre cada una de las fases de votación varía y en ninguna de ellas se llegó a alcanzar el total de votos posibles, 3111, que eran los delegados/acreditados presentes, es decir hubo abstención de algo más de un 2% de los votantes y este fue el voto más volátil de la distribución, estamos hablando de menos de 100 personas, en relación existe otro problema derivado de un mal planteamiento, la probabilidad de que un suceso concreto se produzca será menor a medida que aumentemos la muestra siempre que asignemos a todos los sucesos la misma probabilidad (por la ley de los grandes números), pero no todos los casos eran equiproblables por lo anteriormente expuesto, así que estamos haciendo una intersección de dos conjuntos donde no la hay, que sea par y que se produzca empate sobre la mayor muestra dada, esto innegablemente tenderá a cero.

    No niego que hay algo sospechoso en el resultado, personalmente opino que es igualmente probable (esto es una opinión no científica fruto de mi desconocimiento) tanto que faltase/n un/os voto/s y se añadiese/n para seguir negociando como que realmente se produjese el empate. Tal vez fuese más interesante plantearlo al revés, ceteris paribus, con los 89 votos en discordia y dado que la abstención ronda el 90% (8 de 89 votaron) cuál era la probabilidad máxima de empate, a mí me da dbinom(5,8,.5) un 21,875%, esta es en mi opinión la cota máxima de credibilidad que podemos imputarle a la votación, relativamente alta, aunque cualquier mejora al modelo debería tender a reducir esa probabilidad. Dicho esto a mí tampoco me gusta la binomial para encarar el problema pero en cierto modo es el método más sencillo para calcular la probabilidad sin tener ninguna información adicional sobre el votante o sus preferencias previas, en esencia usar la binomial e imponer 1/2 de probabilidad es reconocer el fracaso al que nos enfrentamos de antemano a la hora de estudiar este asunto.

    Los datos los saqué de aquí:
    https://www.meneame.net/backend/media?type=comment&id=18470227&version=0&ts=1451262448&image.png

  3. J. 30 diciembre, 2015 21:11

    Sí, te dejas que una votación en una asamblea de militantes de un partido izquierdista-asambleario es todo menos un fenómeno aleatorio. De hecho, la inmensa mayoría de votaciones en estos contextos terminan en unanimidad.

  4. Daniel 31 diciembre, 2015 20:30

    Siguiendo el razonamiento de Alanítico, suponiendo una abstención del 90 por ciento y que hay 89 votos en discordia:

    probEmpate = function(x){ifelse( x %% 2 == 0, dbinom(x/2,x,0.5), 0)}
    mean(sapply(rbinom(10000,89,0.10),probEmpate))

    => 0.1348783

  5. Carlos J. Gil Bellosta 2 enero, 2016 18:34

    Hummmm… yo sí que creo que el resultado de un referéndum es aleatorio. Y no solo yo: hay casas de apuestas en las que uno, para ciertos referendos, puede jugar dinero.

    No me interesan demasiado las circunstancias de esta votación en concreto. Si se tienen todas en cuenta, se convierte en un suceso único e irrepetible, como el río de Heráclito. Me interesa más bien estimar la probabilidad de empate en una votación genérica (que pudiera incluir a la que nos ocupa). Solo entonces se puede hablar de probabilidades.

    Finalmente, acepto tus comentarios acerca de la no independencia de los votos. Ciertamente, no son independientes: la gente habla entre sí, hay líderes de opinión, etc. Igual estos son casos (¡raros!) en los que puede especularse sobre la infradispersión de las variables aleatorias implicadas.

  6. Alanítico 3 enero, 2016 21:17

    No quiero que se me malinterprete, reconozco que soy demasiado pasional para escribir por internet, no digo que el resultado de una votación no se deba considerar como un suceso aleatorio, ni mucho menos; lo que digo es que en ese caso no existía absolutamente nada, ni exógeno, como información adicional relevante o sacas de dinero comprando votos, ni endógeno, no se trataba de otra muestra, eran las mismas 3111 personas que habían ido a votar la vez anterior, que permitiese alterar el resultado previo de forma unilateral en una dirección y resulta poco probable que bajo esa premisa los votantes cambien de decisión. El votante indeciso sí se comportará como una variable aleatoria, pero quien tenía su voto decidido de antemano debería ser excluirlo de nuestros cálculos porque sí condiciona el resultado obviamente a la baja, reconozco que decidir qué cantidad de votantes son realmente indecisos y cuál no, es arbitrario, pero también es arbitrario obviar que en dos ocasiones previas se había producido un resultado similar, está claro que no estamos ante una lotería, no había tres mil personas lanzando una moneda al aire en cada fase para determinar su voto y esta es una cuestión primordial, se puede ser todo lo garante que se quiera en este punto respecto al número de indecisos, asignando un mayor número si se quiere, Daniel ha captado muy bien la idea en su comentario y creo que por ahí van los tiros.

    En cualquier caso tengo la impresión de que gran parte del debate se ha circunscrito exclusivamente a números y porcentajes algo completamente sibarita y nos hemos desviado de cosas fundamentales, si tomamos como método de cálculo la binomial, con p=0.5 el resultado más probable es precisamente el empate. ¿Realmente era un resultado tan extraordinario en términos estadísticos?

  7. Olivier 4 enero, 2016 18:31

    El teorema de Bruno de Finetti puede ser util en este problema ( http://djalil.chafai.net/blog/2015/07/05/back-to-basics-exchangeability/). Cabe mencionar, que si la probabilidad “p” de “sies” es uniforme en el intervalo [0,1], todos los resultados del voto (incluido el empate!) son equiprobables con probabilidad 1/3031.

  8. Carlos J. Gil Bellosta 5 enero, 2016 17:56

    ¡Gracias! Justo por eso (si la probabilidad es uniforme en [0,1], que es lo mismo que usar una priori no informativa beta(1,1)) escribí criticando el uso de ese tipo de distribuciones. ¡Hay información!

Los comentarios están desabilitados.