Podría ser Simpson, pero a lo mejor es “otra cosita”

Observo en The deadly effects of losing health insurance cómo el efecto de interés, 15% sobre una población se convierte en efectos del 16%, 23% y 30% en sus tres subpoblaciones (útimas columnas de la tabla que ocupa la página 25). Es raro que el efecto combinado no esté cerca de la media ponderada (por población) de cada uno de sus subcomponentes.

Podría ser Simpson, pero hay motivos para pensar que hayan cambiado las proporciones de las poblaciones subyacentes (demasiado). Habría un efecto Simpson, por ejemplo, si se hubiese incrementado sustancialmente la proporción del grupo con el efecto (no confundir con la variación del efecto) globalmente más pequeño antes y después del tratamiento. Pero dudo que sea el caso.

Otro motivo que podría explicar esa incoherencia bien podría ser metodológico. El artículo plantea un método muy mejorable (¿modelar tasas usando OLS? ¿en serio?). No sé por qué no usa un GLM de Poisson, que para eso está. Tampoco sé por qué no usa pesos para ponderar los tamaños de las poblaciones de tratamiento y control, muy desiguales. No sé si ajusta un único modelo con todas las variables (subgrupos) o construye modelos por separado (¡ufffffff!). Yo qué sé qué han hecho, pero me da la impresión de que la incoherencia que señalo es subproducto de una aproximación metodológica muy perfectible, por decirlo de alguna manera.

Coda: podría también hablar del uso de proxies en la y,…

7 comentarios sobre “Podría ser Simpson, pero a lo mejor es “otra cosita”

  1. Daniel 7 septiembre, 2018 10:13

    Creo que la comprensión de la paradoja de Simpson conlleva que no pueda ocurrir que los porcentajes sean todos mayores que la tasa global. Luego en este caso no puede ser por este motivo. Resalmente lo únicoo que nos dice la paradoja de Simpson es que la media ponderada de varias tasas puede ser un número cualquiera comprendido entre el máximo y el mínimo de las tasas y eso se consigue ajustando los pesos (tamaños poblacionales), pero en ningún caso puede ser un número fuera del rango anterior. Un saludo.

  2. Carlos J. Gil Bellosta 7 septiembre, 2018 18:10

    Eso pensaba yo en mi primera e instintiva aproximación. Pero mira la Wikipedia, la primera imagen: efectos positivos en dos grupos distintos y negativos de manera combinada.

  3. Daniel T 7 septiembre, 2018 23:57

    Efectos positivos grupo A en 4 tiempos p1 < p2 < p3 < p4, y en el grupo B en 4 tiempos q1<q2<q3 r2 > r3 > r4. De nuevo la explicación es que en global cada ri es una media ponderada de pi y de qi, con lo cual puede darse perfectamente el caso.

    Grupo A en 4 tiempos: 0.5 < 0.6 < 0.7 < 0.8
    Grupo B en 4 tiempos: 0.1< 0.2 < 0.3 0.44 > 0.43 > 0.42, siempre es posible encontrar los pesos adecuados para conseguir que la media ponderada sea un número intermedio dado. Ya que gráficamente tomando como variables X = peso, Y=tasa, se tiene una recta que pasa por los puntos (0,pi),(1,qi) y la recta y=ri la corta en un punto que nos el peso x buscado. En definitiva que todo se reduce a medias ponderadas.

  4. Carlos J. Gil Bellosta 8 septiembre, 2018 18:12

    Hay una entrada mía sobre un fenómeno bien conocido: los salarios medios para cada tipo de nivel de estudios bajan (en EE.UU.) pero el salario medio sube. Podría ser que el salario medio global subiese y estuviese en un punto intermedio de los de cada nivel de estudios, pero lo “sorprendente” es que sube. Es decir, el promedio global no tiene que ser “intermedio”.

  5. Daniel 9 septiembre, 2018 12:20

    Acabo de leer este comentario y lo primero que se me ocurre es que se esté mezclando los incrementos de las tasas con las tasas. La tasa global tiene que ser una media ponderada de las tasas de las subpoblaciones pero los incrementos posiblemente no, tendría que pensarlo pero está claro que tasas e incrementos son cosas muy distintas, por lo que me parece plausible que el incremento global no sea una media ponderada de los incrementos de las subpoblacionales.

  6. Carlos J. Gil Bellosta 9 septiembre, 2018 18:45

    Si lees con detenimiento mi entrada, verás que mi línea de razonamiento es esa: primero pienso que el incremento de la tasa global tiene que estar dentro del rango definido por las de las subpoblaciones. Luego me acuerdo de Simpson que haría posible algo distinto. Después argumento que para ello debería variar los tamaños de las poblaciones subyacentes. Así que finalmente retomo la hipótesis original (con ciertas dudas): el artículo tiene potenciales problemas metodológicos. Obviamente, los autores se han guardado mucho de hacerlo reproducible (¿dónde están los datos y el código?) así que siempre nos quedará la duda. Pero me da la sensación de que han metido la pata en algún sitio. Digamos ese tipo de incoherencias es un “red flag” que apunta a potenciales problemas metodológicos que los autores no despejan en absoluto.

Los comentarios están desabilitados.