Paradoja De Simpson

¿Cómo ha evolucionado la altura media de los animales del zoo de Madrid en los últimos años?

Antes de explicar el por qué del título de la entrada y justificarla propiamente, permítaseme mostrar esto: Es una gráfica que muestra la evolución de la altura media de los españoles durante el último siglo, aprox. Los datos son coherentes con la evidencia que muchos tenemos al recordar cómo eran los amigos de nuestros abuelos, los tamaños de las camas de antaño, la altura de las puertas y techos de las casas de pueblo, etc.

Simpson sobre la desigualdad

Simpson, un viejo amigo de estas páginas, nos enseña, por ejemplo, cómo es posible que los salarios desciendan a lo largo de todas sus subcategorías y que, a la vez, crezcan en promedio en el tiempo. Basta para ello que se reduzca el peso la proporción de los trabajos peor pagados en la economía. Los institutos estadísticos, a la hora de estimar el índice de precios, son conscientes del problema y elaboran cestas de la compra más o menos ideales (a lo Quetelet) y calculan su precio a lo largo del tiempo.

Lo que las diferencias de medias evocan

Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Igual porque nos han educado mostrándonos imágenes no muy distintas de Lo cual tiene cierto sentido cuando A y B tienen poblaciones homogéneas.

Podría ser Simpson, pero a lo mejor es "otra cosita"

Observo en The deadly effects of losing health insurance cómo el efecto de interés, 15% sobre una población se convierte en efectos del 16%, 23% y 30% en sus tres subpoblaciones (útimas columnas de la tabla que ocupa la página 25). Es raro que el efecto combinado no esté cerca de la media ponderada (por población) de cada uno de sus subcomponentes. Podría ser Simpson, pero hay motivos para pensar que hayan cambiado las proporciones de las poblaciones subyacentes (demasiado).

Simpson, de nuevo: ahora con la mortalidad

La tasa de mortalidad ha crecido sustancialmente en los dos últimos años (tres, de hecho: el INE no publica datos para el 2017 todavía, pero yo los he y fe doy): Sin embargo, la tasa de mortalidad para cada cohorte de edad decrece. Muestro las de las cohortes de edades múltiplas de cinco: De nuevo, Simpson. Nota: las cifras vienen expresadas en defunciones por cada 1000 habitantes. Los datos salen de aquí.

El IPT y la paradoja de Simpson

El INE ha comenzado a publicar una nueva estadística, el IPT o índice de precios del trabajo. Su primera entrega ha sido glosada por la prensa en artículos como este o este. Es imperativo leer la nota metodológica asociada (resumida aquí y detallada en un enlace que contiene) para darse cuenta de los problemas de interpretación que acompañan al índice. Se parece al IPC en el sentido que promedia el peso de cada salario (precio en el IPC) por el porcentaje de gente que lo gana (o que se compra en la canasta bienes y servicios del IPC).

No me ha salido, pero lo cuento igual

Creo que todos sabéis la historia de las admisiones de la Universidad de Berkeley y la paradoja de Simpson. Con palabras, muchas palabras, está contado, por ejemplo, aquí. Y si buscáis ubc admissions simpson en Google la encontraréis también en modo --verbose en muchos más sitios. En R puede resumirse en library(reshape2) library(plyr) data(UCBAdmissions) raw <- as.data.frame(UCBAdmissions) dat <- dcast(raw, Gender + Dept ~ <a href="http://inside-r.org/packages/cran/AdMit">Admit) mod.0 <- glm(cbind(Admitted, Rejected) ~ Gender, data = dat, family = binomial) mod.

Simpson y la plebe anumérica

Supongamos que los habitantes de un país tienen una probabilidad determinada (y no necesariamente igual) $latex p_i$ de comprar un determinado producto. Supongamos que se lanza una campaña publicitaria que incrementa en una cantidad fija $latex \epsilon$, p.e., 5%, esa probabilidad. Supongamos, finalmente, que se trata de una cantidad que se desea estimar. Unos individuos reciben la campaña publicitaria. Otros no. ¿Cuál es la diferencia entre las proporciones de individuos que compran el producto en uno y otro grupo?

La paradoja de Simpson en el 6eiiic

El día 26 de septiembre, alrededor del mediodía, participaré en el VI Encuentro Internacional de Investigación en Información y Comunicación. Reproduzco aquí el no particularmente breve (y de hecho, el más largo de los publicados) resúmenes por si a alguien le tienta y se acerca: Una parte fundamental de la labor de cualquier investigador consiste en interpretar adecuadamente los datos sobre los que trabaja. Existen innumerables obstáculos que dificultan dicho proceso: desde la inadecuada preparación para el análisis cuantitativo hasta los sesgos cognitivos estudiados por Kahneman, Tversky o Gigerenzer entre otros.

¿Suben o bajan?

La respuesta es sí, obviamente. Pero no todo el mundo maneja la lógica retorcidamente y aplicado a la mediana de los salarios estadounidenses los más comenzaríamos a hacer distingos en lugar de encerrarnos en la tautología. Leo en Revolutions cómo dicha mediana ha crecido un 1% anualmente desde el 2000. Pero, a la vez, la mediana ha descendido en cada uno de los grupos definidos por el nivel de estudios (sin, bachillerato, universitarios, etc.

Casi un ejemplo perfecto

Hoy, el INE, casi nos ha regalado un ejemplo perfecto de la paradoja de Simpson en la nota de prensa de las Pruebas de Acceso a la Universidad. En efecto, según la tabla el porcentaje de hombres aprobados superó al de mujeres en cada categoría (excepto en la muy pequeña de mayores de 45 años). Pero, sin embargo, el porcentaje de aprobados entre las mujeres supera (aunque por la mínina) al de los hombres.

Ubi ratio, ibi paradoxa (Simpsorum)

Efectivamente, ahí donde hay ratios, aparece con frecuencia la llamada paradoja de Simpson (a propósito, en enlace anterior a la Wikipedia es un despropósito: a ver si alguno de mis lectores con tiempo deja la página a la altura de lo que merece una lengua de cultura). Una ratio muy traída y llevada últimamente y con la que nos gusta autoflagelarnos a los españoles es el de la productividad, que es el cociente entre la producción nacional y el número de trabajadores.