El impacto (causal) de Google

Voy a escribir sobre un artículo como no debe hacerse: sin haberlo leído. Los bayesianos dirían que esta opinión que aquí voy a vertir es mi prior para cuando encuentre el tiempo y bajo la cual matizaré lo que en el se diga. Lo advierto, en todo caso, para que quien me lea no renuncie al sanísimo escepticismo.

Voy a hablar de Inferring causal impact using Bayesian structural time-series models y del paquete de R que lo acompaña, CausalImpact, cuyos autores trabajan en Google.

Estaba al tanto de barruntos sobre lo que hacía Google en ese ámbito. Lo revelaba Hal Varian en la sección 8.1 de Big Data: New Tricks for Econometrics. La mención de la causalidad ya levantó entonces todas mis sospechas.

Mis comentarios respecto al artículo y el paquete son dos. Primero, según el resumen del aquel,

[t]his paper proposes to infer causal impact on the basis of a diffusion-regression state-space model that predicts the counterfactual market response that would have occurred had no intervention taken place.

Contrafactualidad, sin embargo, es algo un concepto mucho más cotidiano que causalidad. Contrafactualidad, según se desprende de la descripción superficial de lo que hacen los autores no es otra cosa que la especificación de una hipótesis nula y la construcción de un universo alternativo y artificial que trataría de simular la evolución del sistema de ser cierta. De que los efectos lleven a suponerla más o menos creíble (hasta el punto de aceptarla o rechazarla, en la jerga del p-valor) a que exista una relación causal entre los unos y lo otro media mundo y mitad. Como de costumbre.

Hay que ser muy torero para hablar de causalidad. Más que, incluso, Google.

El segundo comentario es que tampoco lo que nos trae Google es algo novísimo bajo el sol. P.e., en el artículo (¡de 2006!) Formulating State Space Models in R with Focus on Longitudinal Regression Models se plantea el siguiente problema:

Let y_t be the monthly numbers of light goods van drivers killed in road accidents, from January 1969 to December 1984 (192 observations). On January 31st, 1983, a seat belt law was introduced. The interest is to quantify the effect of the seat belt legislation law.

Que es, observarán mis lectores, muy similar al que ocho años después replantea Google. En la tercera gráfica del artículo, que reproduzco a continuación, los autores muestran cómo han sido capaces de dar con el efecto causal de la ley en cuestión.

seatbelt

Salvo que dichos autores se abstuvieron de escribir causal en su artículo. A diferencia de otros…

3 comentarios sobre “El impacto (causal) de Google

  1. Rubén 2 octubre, 2014 14:02

    Muchas gracias por la referencia de las furgonetas. Soy un pez en estadística. Tenemos en transporte un problema similar, relativo a la influencia de la obligatoriedad del casco en los fallecimientos y heridos graves de ciclistas en carretera. Intenté volcar los (pocos y mal tabulados) datos a R y analizarlos como serie temporal, pero mi estadística no da para tanto. Si quieres echar un vistazo (o alguno de los lectores de este blog) su ayuda será más que bienvenida: http://mejorenbici.es/2014/04/05/analisis-de-datos-la-siniestralidad-ciclista-en-espana-en-r/

  2. Rubén 13 octubre, 2014 18:53

    Sí, sigo a Goldacre hace tiempo, ha publicado el editorial en su web: http://www.badscience.net/wp-content/uploads/Screenshot-2013-12-13-17.12.05.png En español hay alguna publicación en el mismo sentido de D. Rojas Rueda del CREAL.

    He replicado el análisis con el paper de las furgonetas y, la verdad, no me ha aclarado nada; no tengo nada claro el modelo estadístico y eso es cosa mía al final xD

    Pero por otro lado, sin datos desagregados de siniestralidad -que la DGT no da- no podemos afirmar mucho, y sin datos fiables de uso de vehículos, que de bici no existen, no podemos conocer siniestralidad relativa. Tenemos consumo de combustible como proxy de uso del resto de vehículos, pero poco más. Estamos cojos de datos…

    A priori si me sonaba factible un análisis frente a dos factores: obligatoriedad/uso de cascco en los accidentados, y vigencia del carné por puntos sobre siniestralidad general, pero los resultados no me resultan muy significativos. De hecho, lo de las furgonetas me parece un análisis muy grueso y no me atrevería a afirmar nada con esos datos. De todas formas, ¡gracias por las referencias!

Los comentarios están desabilitados.