Construcción de prioris informativas a la de Finetti

Un banco tiene clientes. Los clientes usan la tarjeta de débito. La pueden usar de dos maneras: en cajero o para pagar (por productos y servicios). De cada cliente se tiene una secuencia de transacciones, etiquetadas como 1 o 0 según la use en cajero o no.

Para cada cliente, la secuencia de transacciones (más o menos larga) puede considerarse una secuencia intercambiable y, de acuerdo con el teorema de representación de de Finetti,

¿En qué año era la el almacenamiento en disco tan caro como hoy en memoria?

R

La respuesta a sea pregunta, y siempre de acuerdo con los datos de John C. McCallum, la da

discos_vs_memoria

que hace corresponder a cada año del eje horizontal el correspondiente (en el vertical) aquel en el que el almacenamiento en disco venía a costar lo mismo (euros por MB) que el memoria en el primero.

Hoy vamos casi por 2000.

Me llama la atención que el crecimiento se esté ralentizando.

El código, por si alguien le encuentra alguna tara, es

¿Qué significa "vinculados de forma muy significativa"?

Diríase que dos fenómenos vinculados de forma muy significativa guardan una potente relación causal. Creo que eso es lo que entendería cualquiera.

Traigo pues a colación dos fenómenos. El primero es

suicidios_espana

Y el segundo,

suicidios_espana_suicidios

¿Diríais que están vinculados de forma muy significativa?

Pues si en lugar de fiaros de vuestros propios ojos, lo hacéis de Berta Rivera, Bruno Casal o Luis Currais, los autores de The economic crisis and death by suicide in Spain: Empirical evidence based on a data panel and the quantification of losses in labour productivity; o de David Lombao (que divulga el anterior aquí en El Diario), la respuesta es sí.

Prioris muy informativas y vagamente informativas: un ejemplo

Mi búsqueda de ejemplos de aplicaciones con prioris informativas me ha conducido a Physiological pharmacokinetic analysis using population modeling and informative prior distributions, un artículo en el que se plantea un modelo jerárquico con dos tipos de distribuciones a priori:

Distribuciones muy informativas. Por ejemplo, el parámetro que representa la proporción del peso del hígado en un adulto, alrededor del 3.3% en promedio, que se modela con una distribución centrada en ese valor y una desviación estándar baja.

Conferencia de APis predictivas en Valencia (14-15 de Marzo de 2016)

Los días 14 y 15 de marzo de este año tendrá lugar en Valencia esta conferencia sobre APIs predictivas. Según los organizadores,

El objetivo de PAPIs Connect es mostrar cómo el aprendizaje automático (ML) y la inteligencia artificial (AI) pueden servir a todo tipo de organizaciones —de startups a grandes empresas— para crear aplicaciones predictivas y sistemas autónomos que resuelvan problemas reales tanto en los negocios como fuera de ellos. Ejemplos típicos son el mantenimiento predictivo, predicción de la demanda aplicada a la logística, optimización de precios, detección de fugas, automatización de tareas, etc.

Visualizando los quinientos millones de la Begún

¿Te acuerdas —dijo— de que Binóme, nuestro profesor de matemáticas, repetía todos los años, al explicar la numeración, en la lección primera, que medio millar de millones es un número demasiado considerable para que las fuerzas de la inteligencia humana pudieran adquirir de él una idea exacta, si no tuviesen a su disposición los recursos de una representación gráfica…?

Julio Verne, Los quinientos millones de la begún, 1879

Las prioris no informativas están manifiestamente sobrevaloradas

La estadística bayesiana se enseña en cursos de estadística (y, frecuentemente, envuelto en un aparataje matemático tan ofuscante como innecesario). Lo malo es que en los cursos y textos de estadística no existe información previa. La información previa sobre los fenómenos en los que se utilizaría la estadística bayesiana están en las aplicaciones, extramuros del muy agnóstico mundo de la estadística y la matemática.

Por eso, a los autores de los libros de estadística bayesiana y quienes enseñan cursos sobre lo mismo, enfrentados al problema de llenar de sentido la problemática distribución a priori, no se les ocurre nada mejor que discutir muy sesudamente la excepción (la priori no informativa) en lugar de la regla (la priori informativa). Reto al lector escéptico a que repase cualquier manual en la materia (que no haya sido escrito por Gelman) y compare el espacio que dedican a la selección de prioris no informativas con el de convenir una priori informativa decente.

¿Por qué el empate de la CUP es más raro de lo que parece (y de lo que yo mismo digo)?

Menos el de un presunto profesor,

La probabilidad de que 3030 votantes en la #ANECUP empaten con 1515 votos es 1 / 3029 = 0.00033014, lo que corresponde a un suceso imposible

– Mario Bilbao (@mario_bilbao) December 27, 2015

todos los análisis que he visto al respecto (1, 2, 3), incluido el mío, coinciden en señalar que la probabilidad de empate en el muy manido acto asambleario de la CUP es relativamente alta: alrededor del 1,5%. Y más todavía si se tienen en cuenta los resultados de las votaciones previas.

Empates electorales, sorteos y una inadvertida paradoja

Ayer hubo en España una asamblea en la que 3030 personas votaron sobre un cierto asunto: 1515 votaron que sí y otras tantas, que no. La cosa acabó en empate.

Una estimación (de las muchas que pueden hacerse con hipótesis de partida distintas) de la probabilidad de que tal ocurra es dbinom(1515, 2*1515, 0.5), que viene a ser 1.5%. Expresado de otra manera, solo ocurriría en uno de cada 70 congresos de tales características.