Un test A/B consiste en (o aspira a) estimar (y tal vez promediar) las diferencias
predict(modelo_t, x) - predict(modelo_c, x)
donde modelo_t
y modelo_c
son modelos construidos en grupos tratados y no tratados de cierta manera.
Entra el tiempo.
Ahora ya no se trata de medir esas diferencias sino las diferencias entre los incrementos antes y después. Que se hace construyendo cuatro modelos para con ellos obtener
(predict(modelo_td, x) - predict(modelo_ta, x)) -
(predict(modelo_cd, x) - predict(modelo_ca, x))
donde los sufijos t
, c
, a
y d
quieren decir tratamiento, control, antes y después. Además, los cuatro modelos suelen ajustarse de una (p.e., usando modelos lineales con interacciones con tiempo y tratamiento para cada variable).
Lo que no me queda claro de todo esto es dónde queda la paradoja de Lord, central en todo este asunto y de las que pocos parecen haber oído hablar alguna vez.
No acabo de entender dónde está la paradoja en la paradoja de Lord. Lo que viene a decir el segundo estadístico es que los sujetos tienden a regresar a la media: un individuo con sobrepeso para su grupo tiende a perder peso, y al revés. No entiendo cómo esto está reñido con que el efecto global sea nulo. Las dos cosas están en los datos de ejemplo. Lo que no se puede responder es si esa regresión a la media es «lo normal» o no, pero ese es otro tema.
Justo a lo que pones en el primer párrafo lo llaman también T-learner en inferencia causal.
Aparentemente, por lo que entiendo, la paradoja de la paradoja de Lord consiste en que con los mismos datos, utilizando métodos igualmente razonables, se pueden llegar a resultados distintos.
A lo que voy es a que no son resultados distintos, sino que solo lo parecen: no responden a la misma pregunta, y por lo tanto dan dos visiones compatibles de los mismos datos.