Priori

Un ejemplo de caso de uso: uno de los parámetros de tu modelo está relacionado con la duración de algo. El cliente, que tiene 20 años de experiencia en la cosa te dice: el tiempo está típicamente comprendido entre uno y siete días. Por lo tanto, decides introducir en tu modelo una priori informativa gamma que con una alta probabilidad asigne valores en el intervalo $[1, 7]$. Pero, ¿cuáles son sus parámetros?

Esta entrada es un resumen junto con una traducción libre de un capitulito excelente del libro Probability Theory, The Logic of Science de E.T. Jaynes que lleva por título What is safe?. Uno de los principales mensajes prácticos de este trabajo [el libro] es el [de subrayar] el gran efecto de la información a priori en las conclusiones que uno debería extraer de un conjunto de datos. Actualmente, asuntos muy discutidos, como los riesgos medioambientales o la toxicidad de un aditivo nutricional, no pueden ser juzgados racionalmente mirando únicamente a los datos e ignorando la información a priori que los científicos tienen sobre el fenómeno.

I. De todas las explicaciones sobre cómo funciona la percepción —desde la más inmediata, la de los sentidos (“ahí hay una vaca”), hasta la que nos permite transitar las complejidades físicas y conceptuales del mundo moderno— la que he encontrado más convincente hasta el sol de hoy es una construida alrededor de un símil con el proceso actualización bayesiano de las probabilidades. Según ella, por un lado tenemos nuestra propia cosmovisión, lo que esperamos ver antes de abrir los ojos a la realidad, nuestra priori (p.

No he podido evitar darle vueltas al artículo que comenté el otro día aquí, Bayesian Estimation with Informative Priors is Indistinguishable from Data Falsification, de la manera más caritativa posible. En particular, me he preguntado: ¿Por qué se escribió (en lugar de no haberse escrito)? ¿Por qué se escribió en esos términos (en lugar de en otros)? Obviamente, el artículo no enseña nada desde el punto de vista técnico. Desde el metodológico, tampoco: recuerda más que a otra cosa, a esos físicos que muchos años después aún despotricaban contra la teoría de la relatividad.

Hoy voy a comentar un artículo muy raro que me ha llegado recientemente y que se titula nada menos que Bayesian Estimation with Informative Priors is Indistinguishable from Data Falsification. Argumenta el artículo alrededor de lo siguiente (que creo que ya sabemos todos: son ejercicios matemáticos básicos de un curso introductorio de probabilidad): Que la inferencia bayesiana con prioris planas (degeneradas, de ser necesario) es equivalente a la inferencia frecuentista. Que para tres ejemplos concretos (binomial, Poisson y normal), de usarse prioris a través de las distribuciones conjugadas, el resultado de la inferencia bayesiana es equivalente a haber añadido datos (problemas de redondeo aparte) a los originales.

Titulo así a cuenta de un proceso mental de varios saltos producidos a partir de la lectura del muy recomendable Five ways to ensure that models serve society: a manifesto. En particular del parrafito Quantification can backfire. Excessive regard for producing numbers can push a discipline away from being roughly right towards being precisely wrong. Undiscriminating use of statistical tests can substitute for sound judgement. By helping to make risky financial products seem safe, models contributed to derailing the global economy in 2007–08.

Aquí se describe una suerte de recíproco para el teorema de Bernstein–von Mises. Aquí se resume de esta manera: The celebrated Aumann’s Agreement Theorem shows that two rational agents with the same priors on an event who make different observations will always converge on the same posteriors after some civilized conversation over tea. En resumen: B-vM: frente a la misma evidencia, observadores con prioris distintas tienen posteriores similares. Aumann: frente a evidencias disímiles, observadores con las mismas prioris pueden acordar posterioris similares.

[Esta entrada recoge la pregunta y la duda que motivó una conversación con Javier Nogales en Twitter hace unos días.] Citaba (él) un resultado de Theobald de 1974 (¿tanto lleva ridge entre nosotros? ¡habría jurado que menos!) que viene a decir que siempre existe un peso $latex \lambda$ para el que ridge es mejor que OLS. Ves el álgebra y piensas: verdad será. Pero te fías de tu propia intuición y piensas: ¡vaya un resultado contraintuitivo si no contradictorio!

Esto es muy bueno y elabora sobre la conclusión lógica de algo que ya he discutido antes por aquí: que los prejuicios (justos o no: la justicia es una categoría de otro orden) son prioris con las que operamos a falta de más información. Ergo…

Más sobre lo de ayer. O más bien, una justificación por analogía. Con monedas. Tiras una moneda 100 veces y obtienes 60 caras. Tienes una priori $latex B(a,b)$ (beta). Tomas una muestra de valores $latex p_i$ con esa distribución y para cada una de ellas repites el experimento, es decir, obtienes lo que en R se expresaría de la forma rbinom(1, 100, p[i]) Si te quedas los valores $p_i$ tales que esa simulación es 60, enhorabuena, tienes una muestra de la distribución a posteriori.

Muy útil el concepto de sociología normativa, el estudio de cuáles deberían ser las causas de los problemas. Por supuesto, deberían ser de acuerdo con preconcepciones que uno trae de casa, totalmente inasequibles al dato. Un ejemplo: Los narcopisos son propiedad de bancos y fondos buitre, quienes no les desalojan ¿Por qué? Porque los narcopisos se utilizan para estigmatizar al movimiento de vivienda que recupera pisos para familias desahuciadas, que son propiedad de esos mismos bancos https://t.

El otro día, en la ronda de preguntas tras mi charla en la Universidad de Zaragoza, después de mi enconada defensa de las prioris informativas, alguien apostilló muy agudamente: si tenemos prioris muy informativas, ¿para qué queremos datos? Eso, ¿para qué queremos datos? El otro día me lo explicó otro amigo en las siguientes líneas que reproduzco con las inexactitudes achacables a memoria anaidética: En una empresa, un consejero tiene un proyecto, una idea.

Imagina que tienes que generar (reitero: generar) datos compatibles con el siguiente modelo: Tienes n sujetos a los que se proporciona un remedio para dormir en distintas dosis (conocidas) en distintos días. El número adicional de horas que duerme cada sujeto es lineal con una pendiente que depende de la dosis (una serie de dosis fijas). Esa recta tiene un término independiente (el número de horas que duerme el sujeto con una dosis igual a cero del remedio).

Priori

Una "app" para la selección de parámetros de prioris informativas

¿Qué es "seguro"?

Mis prioris sobre la vacuna: ¿por qué estarían tan desviadas?

Más sobre el artículo raro, raro, raro

Un artículo muy raro, raro, raro

¿Criptobayesianismo?

Un recíproco para el teorema de Bernstein–von Mises

Un resultado contraintuitivo

Si los prejuicios son prioris, entonces...

ABC (II)

Sociología normativa: el estudio de cuáles deberían ser las causas de los problemas sociales

Posterioris informativas (o más bien, cuando te informan de cuál es la posteriori)

Prioris informativas: un ejemplo