Ajustar o no ajustar, esta es la cuestión

Hoy traigo a colación dos artículos que dicen, en esencia, lo contrario. El primero, No Adjustments Are Needed for Multiple Comparisons dice… lo que su título indica. Su resumen plantea el asunto un tanto menos sucintamente:

Se recomienda realizar ajustes al realizar múltiples tests sobre grandes conjuntos de datos para evitar rechazar la hipótesis nula demasiado fácilmente. Desafortunadamente, al reducir el error de tipo I se incrementa el error de tipo II. La hipótesis subyacente para realizar el ajuste es la de la hipótesis nula universal, según la cual, el azar es la explicación primera para todo fenómeno. Esta hipótesis está en contradicción con las premisas básicas de la investigación empírica, según la cual la naturaleza obedece leyes regulares que pueden ser estudiadas a través de su observación. Es preferible no aplicar ajustes al realizar múltiples tests porque da lugar a menos errores de interpretación cuando los datos no son números aleatorios sino observaciones extraídas de fenómenos naturales. Además, los científicos no deberían rehuir la exploración de hipótesis que pueden resultar ser falsas dada la posibilidad de no advertir fenómenos potencialmente importantes.

La visión alternativa es la de S. Stanley Young en Everything is Dangerous: A Controversy, que puede también verse como conferencia en Vimeo. Compara en él dos visiones distintas:

  • El de los epidemiologistas: es peor obviar algo real que controlar el número de falsedades que se realizan
  • El de los estadísticos: hay que poner un límite a la probabilidad de extraer una conclusión falsa

De hecho, menciona evidencias empíricas según las cuales entre el 80% y el 90% de los resultados publicados por epidemiologistas son falsas y que son imposibles de replicar en entornos rigurosamente controlados.

Sí, efectivamente, el contexto al que se refieren estos artículos es el de la epidemiología, principalmente. Pero hemos visto y sufrido el efecto de esta falta de control, todo por el afán de obtener un p-valor menor que el consabido 0.05 en muchos otros ámbitos.