Los tests de hipótesis son los macarrones “con cosas de la nevera”

Todos hemos comido macarrones con cosas de la nevera. Estás en casa, tienes hambre y, si no hay otra cosa, son estupendos. Distinto es ir a un bodorrio de alto copete y decirle al camarero:

—Oiga, esto del solomillo y tal… ¿No tendrán Vds. un platazo de macarrones con cosas de la nevera?

Viene esto a que cierta gente trabaja con grandes datos. Y quieren construir modelos. Y por algún motivo que no comprendo del todo, optan por la regresión logística. Hay mil motivos por los que estaría desaconsejado ajustar regresiones logísticas con todos los datos. Aun así, hay gente —sí, la hay— que lo hace.

Pero, peor aún, algunos de ellos le piden macarrones al camarero: véase What about implementing various hypothesis test for LogisticRegression in MLlib.

Mal está que gasten electricidad ajustando un modelo simple con muchísimos más datos de los necesarios. Pero si después de eso quieren estimar si un determinado coeficiente es o no nulo… que se olviden de la estadística tradicional. La estadística tradicional es el subterfugio (los restos de comida) que usas cuando no tienes otra: cuando tienes tan pocos datos que tienes que empezar a especular sobre si esto o aquello es asintóticamente normal, a contar los graditos de libertad como si fueran las monedas para coger el bús, etc.

¿Quieres saber si tu coeficiente es o no distinto de cero? Ajusta tu modelo un millón de veces sobre un millón de muestras distintas de tus datos y mira el bendito histograma. Que para eso está. ¿Quieres tener una idea del ajuste? ¿De si hay señal o puramente ruido en tus datos? ¿De si…? Está todo en las réplicas. Fíate de tus propios ojos. Y deja la teoría para cuando no tengas otra cosa a la que agarrarte.

5 comentarios sobre “Los tests de hipótesis son los macarrones “con cosas de la nevera”

  1. Juan V. 13 octubre, 2014 10:28

    Estoy de acuerdo contigo en los macarrones, pero no en la regresión logística.
    Yo la he utilizado alguna vez para temas predictivos con bastante volumen y me parece que va razonablemente bien, además creo que en SAS o en R puedes obtener test que te dicen lo bien o lo mal que predice el modelo. Creo que no soy el único: banca y seguros que son sectores donde los datos abundan, creo que también tiran de la regresión logística.

  2. Daniel 13 octubre, 2014 12:07

    Efectivamente en banca y seguros llevan desde los años 70 y 80 aplicando regresión logística. Pero es que hace mucho que entramos en el siglo XXI.

  3. Juan V. 14 octubre, 2014 0:40

    De acuerdo, pero no veo ningún argumento. Sería interesante saber dónde se queda corta la regresión logística y que alternativas puede haber (arboles de decisión, redes neuronales, ..).
    La electricidad de nuestras casas es la misma que la de los años 70 y 80 y por mucho que entremos en el siglo XXI sigue siendo la mejor opción para iluminarnos.

  4. rvaquerizo 14 octubre, 2014 9:00

    Amigo Carlos. Es que muchos sólo tienen microondas que cocinan mucho y más barato. Cocinar bien exige buenos medios y buenos chef.

  5. Francisco 15 octubre, 2014 17:30

    En lo que dice rvaquerizo me gustaría añadir, que muchos cuando montan un bar y quieren ofrecer “buena cocina”, empiezan a no querer contratar a buenos chef porque cobran demasiado y a usar microondas antes que el fogón porque es más rápido y después pasa lo que pasa.

    La cocina requiere de dos cosas, tiempo y conocimiento, esto tiene un precio, aunque en general la ganancia supera a los costes. Ojo, que siempre hay “vendedores de humo” que dicen ser grandes chef y después no saben ni freír un par de buenos huevos fritos

    Un saludo

Los comentarios están desabilitados.