Prioris, ¿subjetivas?

Dentro de unos días voy a hablar de estadística bayesiana en Machine Learning Spain. Plantearé una distribución a priori muy poco informativa:

alfa ~ gamma(10, 1);
beta ~ gamma(10, 1);

Me estoy preparando sicológicamente para que alguien me dé guerrita con lo de la subjetividad de las distribuciones a priori. Si tal es el caso, replicaré lo que sigue.

Hace unos días quise replicar el análisis. Pero la URL de la que bajo los datos dejó de contener los de la liga del año anterior y cargó los correspondientes al inicio (¿dos jornadas? ¿tres?) de la actual. ¡Apenas había datos!

Guías de estilo para programar en R

R

Frans van Dunné me ha hecho llegar su guía de estilo de programación en R. Abunda en otra creada por Google hace un tiempo y que traduje y adapté aquí.

Tiene como novedad, dice, su adaptación a las formas y maneras de Hadley Wickham, aún no tan conocido entonces. Coinciden, no obstante, en lo más.

Ninguna de las dos trata el uso las tuberías (operador %>%). Pero es un asunto que se nos puede ir de las manos: de hecho, hoy he conocido el paquete [backpipe](https://github.com/decisionpatterns/backpipe), que implementa %<% y que nos augura largas y desesperantes sesiones de depuración de código.

Sobre la subida del paro registrado en agosto

Sí, se acaba de publicar el dato de agosto. A unos les parece bien y a otros mal. Nada nuevo bajo el sol.

La pregunta (cuya relevancia ignoro) es: ¿cómo varía el paro registrado entre julio y agosto? ¿Es normal dentro de la serie histórica? Los datos del SEPE se remontan al 2001 y, pintados, son

evolucion_paro_agosto

¿Mi opinión? No sé si decir “ni fú ni fá”, “regresión a la media” o ambas (si es que son distintas).

Respuestas distintas, ¿a la misma pregunta?

Hará ya un par de años, un señor muy importante divulgaba en su bitácora los resultados de un estudio relativo a la educación en España que acababa de publicar. Dedicaba una pequeña parte de la entrada a cuestiones metodológicas y el resto a cuestiones normativas: dado que he encontrado esto y aquello con un p-valor de tal, no otro remedio queda que aplicar todas estas medidas que aquí enumero, era el resumen de todo.

Odds = probabilidades

El otro día medio participé en una conversación en Twitter sobre el significado de los odds. Recientemente leí una entrada en la bitácora de un holandés que se quejaba de lo difícil que resulta encontrar un equivalente de esa palabra a su idioma. Pasa lo mismo en español: no existe una traducción directa; no existe, siquiera, el concepto.

Sugiero traducir odds, y lo haré así a lo largo de la entrada, como probabilidades. Al igual que una temperatura puede expresarse en distintas escalas y medidas (Kelvin, Celsius, Fahrenheit), una misma probabilidad puede expresarse de distintas maneras. Estamos acostumbrados a representarlas como fracciones de la unidad, p.e., 0.25; pero esa misma probabilidad puede expresarse también como 3:1.

Golpes de suerte

Rescato para el día de hoy los dos primeros párrafos de un artículo de Ignacio Vidal-Foch. Tiene más, pero menos interesante en nuestro contexto.

Son:

La vida —por lo que de ella he alcanzado a ver— es rigurosamente moral. Es como las fábulas, donde la hormiguita sumisa y laboriosa que aprovecha el buen tiempo para acarrear y almacenar comida, cuando llegue el invierno sobrevivirá, mientras que la cigarra despreocupada que se pasa el verano cantando y tocando el ukelele sucumbirá a la primera helada. La organización social es un complejo esfuerzo para pautar la vida y excluir de ella el azar; de ahí instituciones como las compañías de seguros, la policía, la sanidad pública y la jubilación, o la herencia, con la que los padres quieren proteger a sus vástagos de la incertidumbre y que estos suelen recibir como algo natural y merecido, y no como lo que es, una arbitrariedad que habría que ilegalizar en nombre del principio de la igualdad de oportunidades.

Todos los errores son iguales, pero algunos son más iguales que otros

Por eso, en la práctica, el RMSE y similares son irrelevantes. Aunque eso, desgraciadamente, no quiere decir que no sean utilizados.

Pero en muchas ocasiones no es el error medio la medida importante. A menudo, uno quiere detectar outliers: una variable de interés tiene un comportamiento normal la mayor parte del tiempo; pero en ocasiones, en raras ocasiones, cuando supera determinado umbral, produce catástrofes. Dejarse guiar por el RMSE (o similares) generaría una peligrosa sensación de seguridad: detectaría la normalidad; pero la la anormalidad, lo verdaderamente interesante, le resultaría inasequible.

Tres monedas y un argumento falaz

Tiras tres monedas. ¿Cuál es la probabilidad de obtener tres valores (cara o cruz) iguales? Es, lo sabemos todos, 0.25: de las ocho opciones posibles, solo dos cumplen.

Ahora, el argumento falaz —dizque de Francis Galton— que prueba que dicha probabilidad es de 0.5. Es así: de las tres monedas, dos tienen que coincidir necesariamente en valor; entonces la tercera, con probabilidad 0.5, coincidirá con los anteriores y con la misma discrepará.

Estar en racha (y promediar promedios)

Suponemos que observamos rachas de longitud 2 + rpois(1, 10) de un juego en el que se tiene éxito (1) o se fracasa (0) con probabilidad 1/2. Nos interesa saber si existe eso de las rachas de suerte, es decir, si es más probable que a un éxito le suceda otro o lo contrario.

El observador ve rachas y calcula el número de veces que a un éxito le sigue un éxito y el número de veces que a un éxito le sigue un fracaso así:

Una paradoja que no me parece paradójica, la de Bertrand, y una pregunta

La paradoja de Bertrand se formula así: tómense una cuerda al azar en una circunferencia; ¿cuál es la probabilidad de que sea más larga que el lado del triángulo equilátero inscrito?

bertrand

Bertrand resolvió el problema de tres maneras distintas obteniendo tres resultados distintos: 1/2, 1/3 y 1/4. ¿Es eso una paradoja?

La paradoja es consecuencia de que no existe una definición única de cuerda al azar, algunas de las cuales acaban dando más peso a cuerdas más largas y otras menos. En resumen, hay varias maneras razonables de muestrear cuerdas de circunferencias y los resultados pueden ser distintos.