Juegos justos con monedas truchas

—¿Cara (H) o cruz (T)?

—Sí.

Lo siento, ese era otro chiste. Comienzo de nuevo.

—¿Cara (H) o cruz (T)?

—No me fío porque tu moneda es trucha. Salen más H (o T) que T (o H, tanto da).

—Aun así podemos plantear un juego justo.

—¿Cómo?

—Cada uno elige HT o TH. (i) Se tira la moneda dos veces. Si sale HH o TT, GOTO (i). Si sale otra cosa, gana quien haya elegido tal combinación.

La curtosis de una variable aleatoria constante

Una mañana de hace veinte $\pm \epsilon$ años sufrí mi primera hora de clase de estadística reglada. No la olvidaré: fue un monográfico sobre momentos muestrales de todo orden; los sumatorios se salían por ambos márgenes de las transparencias de acetato. Horrible.

Sin embargo, aquel día perdí la ocasión de levantar la mano y preguntar por la curtosis de una variable aleatoria constante. Porque necesito un valor razonable por defecto y no se me ocurre ninguno. ¿Cero acaso? ¿Alguna sugerencia?

Publicada una nueva versión de rPython-win

R

Acabo de subir a Github una nueva versión de rPython-win, que soluciona uno de mis bugs históricos: ha pasado tanto tiempo en estado “pendiente” que casi le cojo cariño. Tiene (o tenía) que ver con particularidades no documentadas de las APIs para C de Python en distintas versiones de Windows y creo que no afecta al paquete en otras plataformas.

Y aprovechando que el Pisuerga pasa por Valladolid, un enlace: Calling Python from R with rPython.

El problema de la estimación inversa

Supongamos que tenemos unos niños de los que sabemos las edades $x_i$ y las alturas $y_i$. Supongamos además que podemos estimar las segundas en función de las primeras con un modelo lineal clásico

$$ y_i \sim N(a_0 + a_1 x_1, \sigma).$$

Este modelo nos permite, dada una edad, estimar la altura y los correspondientes intervalos de confianza. Pero, dada una altura, ¿qué nos dice de la edad? Este es el problema conocido como de la estimación inversa.

Modelos mixtos por doquier

Los códigos postales, por ejemplo, son un problema a la hora de crear modelos predictivos: son variables categóricas con demasiados niveles. Así, por ejemplo, los bosques aleatorios de R solo admiten variables categóricas con no más de 32 niveles.

Hay trucos de todo tipo para mitigar el problema. Hace un año, Jorge Ayuso me puso sobre la pista de uno de los que tiene más recorrido. Consiste en [su versión más simplificada en]:

¿Dónde están aquellos caballeros andantes?

Pues precedidos del mi favorito de todos ellos, Felixmarte de Hircania, el del desnudo brazo, en

felixmarte

dentro del texto del Quijote. El código para obtener el gráfico anterior es

library(qdap)

quijote.raw <- readLines("http://www.gutenberg.org/cache/epub/2000/pg2000.txt",
    encoding = "utf8")

# es posible que necesites esto en Windows:
quijote <- iconv(quijote.raw, from = "utf8", to = "latin1")

quijote <- quijote[-(1:36)]
quijote <- quijote[-(37453:length(quijote))]

dispersion_plot(quijote, c("felixmarte", "amadís",
    "leandís", "bencimarte", "palmerín",
    "olivante", "tirante", "belianís",
    "gironcilio", "lisuarte", "esplandián",
    "roldán", "rodamonte", "florimorte", "platir",                            "tablante"))

Tenéis permiso mío para buscar otros términos en otros textos y ver qué pinta tiene la distribución.

¿Hubo alguna vez un millón de palentinas?

En el año 2013 hubo 54 muertes de mujeres por violencia de género. Eso da una tasa nacional de poco más de dos por millón (de mujeres). El Mundo nos lo ha querido mostrar su distribución provincial así:

victimas_mortales_provincia

Diríase que la tasa palentina es enorme, cinco veces la nacional. Pero en Palencia viven del orden de cien mil mujeres y hubo un único caso en 2013 (además, ni la mujer ni el agresor, se ve, eran de la provincia sino de un pueblo limítrofe de Cantabria; solo que el cadáver apareció en al sur de la linde).

Ruido en las estadísticas oficiales

Hacía tiempo que no hablaba de este tema. Pero han salido de mi LIFO de artículos potencialmente interesantes dos a los que merece la pena echar un ojo. El primero, este, arranca con

Los organismos estadísticos gubernamentales suelen publicar los estimdores puntuales de las estadísticas económicas oficiales. La documentación metodológica de dichos organismos puede hacer constar que estas estimaciones están sujetas a incertidumbre, pero no suelen cuantificarla. Las notas de prensa raramente discuten el error potencial.

La correlación ni siquiera implica "correlación"

Esto es, según Andrew Gelman, la correlación entre dos variables en una muestra ni siquiera implica su “correlación” (entre comillas, por distinguirlas) en la población de interés.

El enlace anterior también discute otras variantes del archiconocido “la correlación no implica causalidad”, tales como

  • la causalidad está correlacionada con la correlación,
  • la falta de correlación está correlacionada con la falta de causalidad,
  • etc.

que, si yo fuera tú, me apresuraría a consultar en el enlace anterior.