La ley de Benford en muestras pequeñas: algunas evidencias

Hoy he cogido medio millón de números correspondientes a cuantías de dinero, en diversas monedas y he mirado a ver si cumplían la Ley de Benford utilizando código de Gregorio Serrano (véase también esto). El resultado ha sido

donde se aprecia cómo, efectivamente, dichas cifras parecen adecuarse a la Ley de Benford. (Hay que hacer notar, sin embargo, que el test implementado por Gregorio, el de la chi-cuadrado, arroja un p-valor de 2.2e-16, que podría llevar a algunos a cuestionar si lo que ven sus ojos es cierto y a otros a divagar sobre la aplicabilidad de pruebas de este tipo a conjuntos de datos tan grandes).

Luego he hecho cuatro subselecciones de 100 de dichos valores para ver qué sucede con muestras más pequeñas. El resultado ha sido el siguiente:

Como vemos, con muestras de cien números diríase que, aparentemente, no se cumple la Ley de Benford. ¡Pero son muestras de una población mayor que sí que la cumple!

¿A qué viene esta entrada? A una breve charla con David Cabo ayer en Twitter que me preguntaba sobre esto. Léanlo mis lectores y extraigan sus propias conclusiones.

3 comentarios sobre “La ley de Benford en muestras pequeñas: algunas evidencias

  1. Gregorio R. Serrano 8 febrero, 2013 11:28

    Hola.

    Muy interesante la entrada, como siempre, pero yo nunca habría hecho el test con sólo 100 datos. Una debilidad de la regularidad de Benford es que no se definen (no he encontrado) los requisitos para poder aplicarla. Es decir, no sabemos cuántos valores y cuántos órdenes de magnitud distintos son necesarios para que se se pueda comprobar con un mínimo rigor. Cuando cuento esto en clase, la sugerencia es «miles de datos» y al menos tres órdenes de magnitud distintos.

  2. José Luis 9 febrero, 2013 20:52

    Hola.

    Pues aplicando el código de Gregorio a los datos analizados en http://cafematematico.com/2011/11/21/la-ley-de-benford/ por Miguel Lacruz . Lo primero que llama la atención, es que son sólo 84 datos ( columna haber y de julio de 2002 a diciembre de 2008) y que no hay ninguno que empiece con 8. Añadiendo un sobre ficticio de 8000 E dirigido a mí, por ejemplo, y aplicando el código, me avisa de que el test puede ser incorrecto. Normal , viendo la tabla de los primeros digitos
    > table(digito1)
    digito1
    1 2 3 4 5 6 7 8 9
    41 8 10 3 3 12 2 1 5

    En fin, allá él con su aseveración de que, como estos 84 datos no siguen la ley de Bendof los papeles de Bárcenas son falsos.

  3. datanalytics 9 febrero, 2013 21:11

    @José Luis A mí lo que más me llamó la atención del asunto es que el tipo es profesor de análisis matemático. Si un alumno le pinta una función en un examen y le dice: «pues a ojo parece derivable en todos los puntos»… ¡a ver qué nota le pone!

Los comentarios están desabilitados.