|
Archivo
Entradas Etiquetadas ‘estadística’
Esta entrada tiene como prerrequisito las dos que la preceden: esta y esta.
Si es una muestra de una distribución de probabilidad regular y extendida, entonces es una muestra de , que es otra distribución de probabilidad
- regular (porque el logaritmo es una función creciente) y
- extendida (aunque hay que convenir que menos: el logaritmo achica los números grandes).
Por lo tanto, cabe esperar que también la parte decimal de tenga una distribución uniforme sobre el intervalo [0,1). Luego cumple la Ley de Benford (véase la condición suficiente). Esto se debe a esa (¿contraintuitiva?) propiedad del logaritmo decimal: convertir el dígito más significativo de un número, el primero, en la parte menos significativa de su logaritmo, la que sigue a la coma.
Tres notas de rigor:
- En lugar de
podrían usarse otras funciones (el cuadrado, la raíz cuadrada, etc.) que también transforman distribuciones regulares y extendidas en otras que lo son igualmente. Pero se perdería la magia de la relación entre la parte fraccionaria con el primer dígito.
- La parte fraccionaria de una distribución regular y extendida es aproximadamente uniforme. La uniformidad solo se garantiza en el límite (conforme la distribución se hace más y más extendida sobre la recta real). Es posible (cuestión que exploré aquí) que los primeros dígitos de muestras de determinadas distribuciones no sigan la Ley de Benford.
- Queda ver cuáles son las razones (¿sicológicas?) que llevarían a los humanos a inventar secuencias de números que no obedecen una ley extendida y regular. En particular, que violan la regularidad.
En la última entrada de la serie abundaré esa tercera nota y hablaré de posibles extensiones que no son sino ocurrencias mías.
Continuamos hoy nuestra serie sobre la llamada ley de Benford discutiendo la distribución de la parte fraccionaria de las muestras de una distribución.
La parte fraccionaria de un número es, para entendernos, lo que va detrás de la coma. Técnicamente, x - floor(x). ¿Le sorprendería a alguien la parte fraccionaria de una secuencia aleatoria de números no tenga una distribución uniforme sobre [0,1)?
Obviamente, si los números son enteros no. ¿Pero si siguen la distribución normal? Se puede probar, de hecho, que si la serie sigue una distribución de probabilidad que sea
- regular, es decir, que no tenga picos extraños y, más en concreto, cuya función de densidad crezca hasta cierto punto y decrezca de él en adelante y
- extendida, es decir, que cubra un rango amplio de valores (p.e., la recta real entera),
entonces la distribución de la parte fraccionaria de sus muestras serán aproximadamente uniformes. Y lo serán tanto más cuanto menor sea el máximo de la función de distribución. La referencia, el artículo Pourquoi la loi de Benford n’est pas mystérieuse de Nicolas Gauvrit y Jean-Paul Delahaye.
Esto se verifica fácilmente en ciertos casos. Por ejemplo,
que produce

En la siguiente entrega analizaremos qué tiene que ver esto con la ley de Benford.
Fresco aún en nuestro recuerdo el fiasco de Excel del que nos ocupamos hace unos días, los partidarios de la reproducibilidad, el software subversivo y gratuito, los detractores de las herramientas propietarias y otras estirpes han agudizado su campaña en pro de lo que denominan una mayor transparencia en el proceso de creación científica.
Como contrapeso a tanto despropósito, traigo a la consideración de mis lectores una visión alternativa que desnuda los desatinos de la caterva y recoge diez motivos incontestables por los que compartir código es una sinrazón. Es obra de Randall J. LeVeque que puede ser consultada como artículo o, para los impacientes, como presentación.
Vaya por delante que:
- monto y me traslado en bici por Madrid siempre que razonablemente puedo (que son las menos de las veces)
- simpre uso casco (más que por la improbable protección que pueda darme, por poder reforzar el alegato, en caso de incidente, de que soy un ciudadano responsable)
- tengo en el cuerpo dos cicatrices de más y otros tantos dientes de menos a resultas de diversos accidentes
- no tengo tiempo de discurrir cuál sería mi postura sobre la prohibición de circular en bici sin casco: es asunto que no me afecta en absoluto por lo arriba indicado.
Sentado lo cual, entro en materia. Y es la del aburridor y artificial debate que se crea siempre que
- el gobierno pretende prohibir alguna actividad (sea fumar en locales públicos, conducir sin cinturón de seguridad o montar en bici sin casco),
- alguna asociación se arroga el derecho de representación de los presuntos afectados y
- se planta en el no, un no absoluto y sin fisuras ni matices.
En este caso, hablaré de la oposición —poco razonable, a mi parecer— de ciertas asociaciones de ciclistas, como la Coordinadora ConBici, con la que mantuve algún intercambio de tuits recientemente.

Aclaro que no es la discusión sobre si el casco debiera o no exigirse lo que trae este asunto a mis páginas sino un examen crítico de los argumentos técnicos y científicos esgrimidos por los antiloquesea. Aclaro también que estoy siempre dispuesto a cambiar de opinión en cualquier asunto cuando la evidencia científica y técnica me induce a ello. Pero me rebelo —y entonces vengo a estas páginas y escribo— cuando se me intenta dar gato por liebre.
Veamos pues. Veamos algunos ejemplos de cómo desde la Coordinadora ConBici se navega tortuosamente, en zigzag, por la literatura científicotécnica para seleccionar torticeramente evidencias con que apuntalar posiciones de partida (o prejuicios).
En primer lugar, constato que no tienen a bien considerar la lista de organizaciones que abogan por considerar el uso del casco recomendable (como la AMS) o, incluso, obligatorio (como la British Medical Association o la American Medical Association).
Un informe que me hicieron llegar, El uso del casco en la bici: una visión general basada en pruebas concluyentes fue elaborado por una organización ciclista británica y tiene el siguiente resumen:
El siguiente informe expone las razones, respaldadas por pruebas concluyentes, para que el uso del casco no sea obligatorio por ley ni sea objeto de campañas promocionales.
Lo argumenta alrededor de tres ideas:
- La obligatoriedad del casco reduce el uso de la bicicleta.
- Si se usa menos la bici, empeora la salud global de la población (empeoramiento que no se vería compensado por el beneficio que reportaría el uso del casco).
- El que haya muchos ciclistas es causa de que la conducción en bici sea segura (por lo que medidas disuasorias del uso de la bici, aun en aras de la seguridad, tendrían el efecto paradójico de reducirla).
Puede ser, no lo descarto como hipótesis de partida, que la obligatoriedad del casco pueda reducir el uso de la bicicleta. Pero si la relación causa efecto fuese concluyente, los autores del informe, casi seguro, no se habrían visto obligados a realizar lecturas selectivas de sus fuentes. Por ejemplo, hacen notar una reducción del 36 % entre los niños ciclistas en Melbourne (donde también destacan una reducción notablemente más pronunciada del 44 % entre los adolescentes). Pero el resumen del artículo del que extrean esas cifras tiene una visión mucho más comedida:
The first year following the introduction of the helmet wearing law coincided with a reduction in the number of people riding their bicycles. By 1992, two years after the law, the number of bicyclists was approaching pre-law levels in adults and children but was still greatly reduced in teenagers.
Y la reducción del 60 % en Nueva Escocia (Canadá) se apoya en un estudio que no dice nada de eso sino, más bien, que
The rate of helmet use rose dramatically after legislation was enacted, from 36% in 1995 and 38% in 1996, to 75% in 1997, 86% in 1998 and 84% in 1999. The proportion of injured cyclists with head injuries in 1998/99 was half that in 1995/96 (7/443 [1.6%] v. 15/416 [3.6%]) (p = 0.06).
En maldito párrafo se trata el incremento o decremento del uso de la bicicleta en Nueva Escocia.
Y es entretenido seguir comparando las afirmaciones del estudio con los de los artículos de las referencias para descubrir más modos de lecturas interesadas, cuando no directamente inventadas.
Sobre el impacto negativo sobre la salud derivado del menor uso de la biclicleta, suspenderé el juicio en tanto en cuanto no se pruebe más fehacientemente la mayor: que se reduciría el número de ciclistas se obligarse a usar casco. Insisto, no niego que el razonamiento tenga cierta coherencia lógica, pero creo que si el efecto fuese tan patente y significativo, dudo que los autores del estudio se hubiesen visto abocados a tan contumaz ejercicio contorsionismo lógico.
Finalmente, el argumento de que el número de cicilistas causa seguridad (por lo tanto, cualquier medida que contribuyese a reducir aquél tendría consecuencias negativas sobre esta) bien podría ser falaz. Que dos fenómenos ocurran juntos, ¿significa que el primero de ellos es causa del otro? ¿O podría ser, más bien, al revés? ¿O que ambos sean consecuencia de un tercero? De hecho, yo entiendo más creíble que sea la seguridad percibida la que invite a pedalear —al menos, intuyo un nexo lógico— a lo contrario, es decir, a que la seguridad sea una propiedad que emane mágicamente de masas de ciclistas. Aunque no me atrevo a ahondar en estas cuestiones relativas a la causalidad en tanto que no haya terminado de leer el libro de Pearl.
Dentro de las lecturas tendenciosas y sesgadas, encuentro en las páginas de ConBici la mención a un informe científico europeo patrocinado por la Comisión Europea y la Fundación Mapfre que, según ellos, contradice la propuesta de la DGT sobre el uso obligatorio del casco para los ciclistas españoles y que resume así:
El informe propuso más de 60 recomendaciones a los gobiernos europeos y la Union Europea sobre cómo mejorar la seguridad vial para los ciclistas. Ninguna de las recomendaciones pedía cascos obligatorios para ciclistas, y en la página 47 los autores del informe advierten: el uso del casco no debería ser obligatorio.
Que es cierto, pero con muy serios matices. Porque lo que se lee en el informe es:
Relating to the use of helmets, as explained in Section 3 above, further research would need to be undertaken to improve the level of protection they provide and the type of collisions they are useful in. As such, the use of helmets while riding should not be mandatory. However, as they provide an additional amount of protection to cyclists – albeit a limited one – cyclists should be encouraged to wear them.
El informe se resiste a recomendar la obligatoriedad del casco de no estar fundada en estudios más conclusivos y en tanto en cuanto —de esto se encarga también el informe en otros puntos— no se mejore la protección que potencialmente podría brindar a los ciclistas.
En fin, que no me convencen. Aunque eso es lo de menos.
Lo importante es ¿por qué se empeña siempre la gente en torcer, torcer y torcer la realidad? ¿Por qué ha desaprovechado la ocasión ConBici de poner honestamente juntos argumentos en pro y en contra y valorarlos ellos —e invitarnos a los demás a que los valoremos también— en lugar de buscar el adoctrinamiento a toda costa? ¿Por qué me han hecho perder esta tarde de domingo haciéndome buscarle tres pies al gato?
Las circunstancias —frente a las que soy dócil como el que más— me conducen a escribir de nuevo sobre la Ley de Benford. En concreto, voy a traer a la atención de mis lectores una condición suficiente para que se cumpla. Y de ella extraeremos conclusiones tal vez sorprendentes en sucesivas entradas de la serie que con esta inicio.
Dado un número (p.e., 1234), lo podemos descomponer en dos: una potencia de 10 y otro entre 0 y 10:
n <- 1234 # por ejemplo
suelo <- floor(log10(n))
parte.decimal <- log10(n) - suelo
10^suelo # una potencia de 10
10^parte.decimal # entre 0 y 10
Si lo que llamamos parte.decimal tiene una distribución uniforme en el intervalo (0,1), entonces la probabilidad de que un número comience por, por ejemplo, 3, será

o bien

que no es otra cosa que , el valor que corresponde a la definición estándar de la ley en cuestión.
Así que, en resumen:
Una condición suficiente para que se verifique la Ley de Benford para una serie de valores es que la parte decimal de los valores tenga una distribución uniforme sobre el intervalo (0,1).
(Nota: estoy obviando los signos).
Ya es un poco viejo: tiene 12 años. Pero su contenido es de lo más actual. Se trata de un artículo de Cleveland titulado Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics que se plantea extender el ámbito de acción de la estadística (tradicional) a nuevas áreas (emergentes entonces) y cuyo objetivo es definir un conjunto de contenidos que deberían conformar el bagaje del analista de datos (hoy lo llamaríamos científico de datos o data scientist).
Las principales áreas de conocimiento serían:
- Investigación multidisciplinar (25 %): se refiere a la colaboración en proyectos en diversas áreas, motivado en gran parte por la experiencia histórica: Fisher, Tukey y Box, por ejemplo, trabajaron en problemas aplicados en agronomía, ingeniería o química analítica.
- Modelos y métodos para el análisis de datos (20 %), la estadística aplicada tradicional.
- Informática (15 %): algoritmos, lenguajes de programación, etc., orientados al procesamiento de datos.
- Pedagogía (15 %): cómo enseñar esta materia y, aunque Cleveland no lo diga explícitamente, cómo interactuar con colaboradores menos versados en asuntos de naturaleza cuantitativa.
- Evaluación de herramientas (5 %): tiene que ver con la formación continua y la reevaluación de técnicas, que pudiera conducir a nuevos avances
- Teoría (20 %): las matemáticas (y no solo las matemáticas) subyacentes.
Escriribé hoy sobre las leyes de Benford. Así, en plural.
Porque cuando escribí sobre la Ley de Benford hace un tiempo, indiqué cómo la frecuencia de cada primer dígito es decreciente (del 1 al 9) siempre que la función de densidad de la serie de los números que se investigue sea ella misma decreciente. Este resultado trivial bien podría llamarse Ley Débil de Benford.
Sin embargo, las probabilidades de ocurrencia de cada dígito dependen de la distribución de la serie, como bien podrá comprobar quien visite esa antigua entrada mía.
Ahora bien, Arthur Charpentier ha escrito sobre la Ley de Benford en su bitácora Freakonometrics recientemente explicando bajo qué condiciones son aplicables las probabilidades de los dígitos conocidas por todos, es decir,

La condición es que al cambiar la escala, no cambie la distribución del primer dígito. Lo cual viene a ser equivalente a que la función de densidad sea proporcional a y eso conduce necesariamente a que , un caso particular de la distribución de Pareto.
Más aún, Charpentier analiza en qué casos las primeras cifras de muestras de algunas otras distribuciones siguen la ley anterior y encuentra cómo los resultados no son enteramente disconformes en algunos (¡pero no todos!).
Y este es el hecho que bien podría venir en llamarse Ley Fuerte de Benford. Quedaría no obstante pendiente la tarea de caracterizar —de ser posible, claro— aquellas distribuciones a las que resultase aplicable.
La gente vota de muchas maneras. A bote pronto, uno diría que lo hace cada cuatro años con papeletas y en medio de parafernalia de listas cerradas, mítines y similares aditamentos.
Pero hay otros que opinan que hay mecanismos alternativos de voto. La gente puede votar en Twitter, por ejemplo. Y algunos conceden a esos votos una relativa potestad para adivinar o, incluso, influenciar fenómenos de importancia económica, política o social.
Quienes entablan batallas numéricas después de las manifestaciones, qué duda cabe que atribuyen efectos plebiscitarios a que la cola de la marcha llegase o no a Atocha cuando la cabecera entraba a Colón.
Incluso una vez leí de alguien que las guerras civiles son circunstancias igualmente plebiscitarias y quien las gana puede asumir estar en posesión de un mandato popular. (No os voy a decir a cuenta de qué guerra civil en particular opinaba eso para que no tengáis fácil eso de pensar si andaba o no desatinado; solo os daré una pista: se refería a una en la que se consideraba afín al bando vencedor, algo en lo que podría o no podría coincidir con vuestro parecer).

Pero desde hace años vengo pensando que, en realidad, la gente vota con la tarjeta de crédito. Al mundo le damos forma eligiendo productos y servicios diariamente —¡las palabras en Twitter son demasiado baratas!— y que quienes se pelan el culo haciendo exégesis de tuits y encuestas envidiarán a muerte a quienes dispongan la contraseña de la base de datos sobre la que consultar
select * from credit_card_transactions where ...
Hoy he cogido medio millón de números correspondientes a cuantías de dinero, en diversas monedas y he mirado a ver si cumplían la Ley de Benford utilizando código de Gregorio Serrano (véase también esto). El resultado ha sido

donde se aprecia cómo, efectivamente, dichas cifras parecen adecuarse a la Ley de Benford. (Hay que hacer notar, sin embargo, que el test implementado por Gregorio, el de la chi-cuadrado, arroja un p-valor de 2.2e-16, que podría llevar a algunos a cuestionar si lo que ven sus ojos es cierto y a otros a divagar sobre la aplicabilidad de pruebas de este tipo a conjuntos de datos tan grandes).
Luego he hecho cuatro subselecciones de 100 de dichos valores para ver qué sucede con muestras más pequeñas. El resultado ha sido el siguiente:

Como vemos, con muestras de cien números diríase que, aparentemente, no se cumple la Ley de Benford. ¡Pero son muestras de una población mayor que sí que la cumple!
¿A qué viene esta entrada? A una breve charla con David Cabo ayer en Twitter que me preguntaba sobre esto. Léanlo mis lectores y extraigan sus propias conclusiones.
Ben Goldacre es un médico inglés algo friqui. No se conforma con lo que le cuentan los vademécum al uso. Y mucho menos, los visitadores médicos, es decir, los representantes comerciales de las compañías farmacéuticas. Le gusta navegar por la literatura científica y ver qué se ha publicado sobre los diversos tratamientos. E incluso, lo que no ha llegado a publicarse (ya sabéis, el sesgo de publicación).
Publicó en 2008 un libro muy recomendable, Bad Science (traducido al español), gracias al cual he venido a enterarme de cuál pudiera haber sido el primer análisis clínico de la historia:
El rey ordenó a Aspenaz, jefe de sus eunucos, que seleccionara entre los israelitas de estirpe real o de familia noble, algunos jóvenes sin ningún defecto físico, de buena presencia, versados en toda clase de sabiduría, dotados de conocimiento, inteligentes y aptos para servir en el palacio del rey, a fin de que se los instruyera en la literatura y en la lengua de los caldeos. El rey les asignó para cada día una porción de sus propios manjares y del vino que él bebía. Ellos debían ser educados durante tres años, y al cabo de esos años se pondrían al servicio del rey. Entre ellos se encontraban Daniel, Ananías, Misael y Azarías, que eran Judíos. Pero el jefe de los eunucos les puso otros nombres: a Daniel lo llamó Baltasar; a Ananías, Sadrac; a Misael, Mesac, y a Azarías, Abed Negó.
Daniel estaba decidido a no contaminarse con los manjares del rey y con el vino que él bebía, y rogó al jefe de los eunucos que no lo obligara a contaminarse. Dios hizo que él se ganara el afecto y la simpatía del jefe de los eunucos. Pero este dijo a Daniel: «Yo temo a mi señor el rey, que les ha asignado la comida y la bebida; si él llega a ver el rostro de ustedes más demacrado que el de los jóvenes de su misma edad, ustedes harían peligrar mi cabeza delante del rey». Daniel dijo al guardia a quien el jefe de los eunucos había confiado el cuidado de Daniel, Ananías, Misael y Azarías: «Por favor, pon a prueba a tus servidores durante diez días; que nos den legumbres para comer y agua para beber; compara luego nuestros rostros con el de los jóvenes que comen los manjares del rey, y actúa con tus servidores conforme a lo que veas». El aceptó la propuesta, y los puso a prueba durante diez días. Al cabo de esos días, se vio que ellos tenían mejor semblante y estaban más rozagantes que todos los jóvenes que comían los manjares del rey. Desde entonces, el guardia les retiró los manjares y el vino que debían tomar, y les dio legumbres.
Daniel 1, 3-16
Y, bueno, tras el abrebocas, os recomiendo encarecidamente la lectura de Bad Science.
|