Libros

Hace un tiempo hablé sobre la estimación de probabilidades de eventos que ocurren una única vez: elecciones, etc. Argumentaba cómo pueden ser descompuestos en dos partes muy distintas cualitativamente: una asociada a eventos que sí que se han repetido; otra, específica y única. El tamaño relativo de ambas componentes afecta a eficacia del mecanismo de estimación. Esta vez quiero ilustrarlo con un ejemplo extraído, traducido y adaptado de aquí que ilustra el procedimiento.

I. A Treatise on Probability, la obra de Keynes (sí, el famoso) de 1921, es un libro muy extraño que se puede leer de muchas maneras. Puede servir, si se hace poco caritativamente, para denunciar el lastimoso estado en el que se encontraba la probabilidad antes de la axiomatización de Kolmogorov, 12 años depués de su publicación. O también, si se hace más cuidadosamente, para rescatar una serie de consideraciones que aun hoy muchos hacen mal en ignorar.

I. Estos días y por razones que no vienen a cuento, he estado leyendo Fashionable Nonsense. Es un libro que puede describirse como la versión del director del conocido como escándalo Sokal. Para los no advertidos y según la Wikipedia: En 1996, Sokal, profesor de física en la Universidad de Nueva York, envió un artículo pseudocientífico para que se publicase en la revista postmoderna de estudios culturales Social Text. Pretendía comprobar que una revista de humanidades «publicará un artículo plagado de sinsentidos, siempre y cuando: a) Suene bien; y b) Apoye los prejuicios ideológicos de los editores (contra las ciencias empíricas)».

Acabo de subir: Modificaciones y correcciones a los dos primeros capítulos. Un tercer capítulo sobre distribuciones de probabilidad. Queda ampliar, organizar y razonar la biblografía correspondiente a ese tercer capítulo. Lo más original (con cuádruples comillas) de este capítulo es tal vez la construcción de la función de densidad a partir de histogramas obtenidos a partir de simulaciones de variables aleatorias. Algo sobre lo que creo que escribí en su día en el blog pero que no ubico.

Data visualization, de Healy, sicólogo sociólogo (gracias al atento comentarista) para más señas, es dizquel nuevo Cleveland. Que lo pone al día 27 años después. Una muestra del libro: Se trata de las estéticas (en su acepción ggplot2) ordenadas de mayor a menor efectividad. [Estoy leyéndolo y nada nuevo bajo el sol; tal vez, sí, el aggiornamiento que de vez en cuando parece que necesitan las cosas para que se oreen las ideas, las tipografías y las paletas de color de los gráficos.

Estoy corrigiendo las partes de mi libro que tienen que ver con la teoría del a probabilidad para hacerlas más prácticas para quienes llegan a ese mundo no para aprender una serie de reglas operativas que le sirvan para resolver un examen y pasar a otra cosa sino para su trabajo y su vida. Es decir, para asignar probabilidades a eventos. Y eso me ha llevado a hojear uno de los libros más famosos en los últimos tiempos dedicados al asunto: Superforecasting.

Acabo de colgar el primer par de capítulos de mi libro Introducción a la probabilidad y la estadística para científicos de datos. No voy a adelantar nada aquí que no esté contenido en la introducción a la obra (AKA la introducción de la introducción). Pero baste este adelanto: Las peculiaridades de su público explican algunas de las páginas que siguen. Por ejemplo, en ellas no se encontrará ni rigor, ni ortodoxia ni autocompletitud.

Voy a guardar el extracto de The Art of Statitstics para usarlo con la misma malísima baba que su autor en coyunturas tales como esta: Recordad las sabias palabras de Spiegelhalter: https://t.co/mne7xhMN3W pic.twitter.com/x8YZxiMvgp — Carlos Gil Bellosta (@gilbellosta) September 30, 2020

Acabo de terminar (la última edición corregida y aumentada de) The Number Sense, un libro que libro explora la ubicación de la aritmética básica dentro del eje naturaleza vs crianza y del que me permito compartir mi parrafito favorito:

Leí hace un tiempo, antes de que concediesen el Nobel a sus autores y porque había oído hablar muy bien de él a un tipo que conozco, Poor Economics. Es un libro muy deprimente y voy a explicar aquí por qué. Advierto que escribo de memoria: ni he revisado el libro ni lo que de él anoté para este infrarresumen. El libro tiene muchas páginas divididas en N+1 capítulos. Los N primeros describen muchos, muchísimos RCTs (¿en el orden de cientos?

Tales son las circunstancias de los tiempos que nos ha tocado vivir que muchos de quienes trabajamos en ciencia de datos, querámoslo o no, nos dedicamos a vender cachivaches. De ahí que recomiende la lectura de un librito con muchas posibles interpretaciones pero que da en el clavo en muchas. O tal opino yo. Nota: muchas cosas han cambiado desde que se publicó. No sé si es bueno leer esto antes o después que el libro.

Fui a la Feria del Libro. El calor era el de L’Étranger. Comencé por la caseta uno. TOC. Riguroso orden hasta la cientiypico. Libros, libros por todas partes… Autoayuda. Autoayuda. Reverté (¿recopilatorio de artículos?). Libros rosas, libros con nombres y fotos de mujeres en la portada. Autoayuda. Infantil. Losantos y su Barcelona. Autoayuda. Dos pornógrafas. Los gatitos (y la filosofía) de Stoya. Autoayuda. DIY. Facsílmil de Voynich. Los mismos libros una y otra vez.

Los libros contienen palabras e ideas. Un libro con un índice de compresibilidad del 0% es uno para el que transmitir el, p.e., 30% de las ideas que contiene hacen falta, como poco, el 30% de las palabras. Muchos libros de matemáticas o estadística tienen ratios de ese nivel. El otro día leí una entrada de blog en la que alguien le hacía un 80:20 a un libro que había leído.

Libros

Más sobre la estimación de probabilidades de eventos que no se repiten

Dos cuestiones sobre la naturaleza de la probabilidad planteadas por Keynes en 1921 pero que siguen hoy igual de vigentes

Sobre el "programa fuerte" de la sociología de la ciencia: una visión desde la "ciencia de datos"

"Introducción a la probabilidad y la estadística para científicos de datos": segunda entrega

Canales (o estéticas), de mejor a peor, según Healy

Algoritmos y ética circa 1950

"Introducción a la probabilidad y la estadística para científicos de datos": primera entrega

"Regression models that claim to reach causal conclusions, as favoured by economists"

Mi parrafito favorito de "Number Sense"

"Poor Economics": el resumen

Rebelarse vende

Feria del libro, 2019

Libros y el índice de compresibilidad