Carlos J. Gil Bellosta

Las diapositivas de mi charla sobre rstan en el grupo de usuarios de R de Madrid del 2016-02-11 están aquí.

Podemos hacerlo seleccionando aleatoriamente (uniformemente)

la longitud de la arista (p.e., entre 3 y 5 cm)
la superficie de la cara (p.e., entre 9 y 25 cm²)
su volumen (p.e., entre 27 y 125 cm³)

Obviamente, los tres mecanismos anteriores generarán distribuciones de muestreo diferentes (¿cuáles?).

Una trivialidad, tal vez, que tiene que ver con esto y con esto.

Investigando para las clases del máster de visualización de datos de Unidad Editorial (que arranca hoy mismo), di con Vizhealth, una guía de estilo para la representación de datos relativos a la salud de los individuos con el nihil obstat de un equipo multidisciplinar de médicos, diseñadores, sicólogos, etc.

vizhealth

Id, que ellos lo cuentan mejor que yo, y visitad la galería de ejemplos.

Probablemente no habéis utilizado nunca Redis. Redis es un sistema de almacenamiento basado en parejas clave-valor. Es similar a un diccionario de Python o a un entorno en R. Salvo que el almacenamiento es externo al proceso: los datos se guardan en un sistema distribuido y potencialmente ilimitado en cuanto a capacidad.

Si queréis probar algo parecido, además de los diccionarios y los entornos, podéis probar con storr , un paquete reciente de R. Aquí tenéis una minisesión de ejemplo:

Este jueves (2016-02-11), a las 19:00, hablaré de rstan y de rstanarm en Medialab-Prado dentro de la reunión de usuarios de R de Madrid. Con el concurso de estos paquetes, replantearé tres problemas estadísticos conocidos desde una óptica bayesiana:

Pruebas de hipótesis
Regresión lineal
Modelos estructurales de series temporales

Si quieres asistir, reserva tu plaza aquí.

Probablemente, discutiré todos esos modelos en estas páginas en los próximos días, además de colgar las diapositivas y sus fuentes.

¡Olé!

Con la frase que titula esta entrada se cierra este artículo tan torero de eldiario.es.

El resto de lo que se publica me viene de perillas para ilustrar a mis alumnos del máster de ciencia de datos de KSchool eso de la dependencia e independencia condicional.

Lo que el artículo argumenta, y que nadie pone en duda, es que altas concentraciones de óxidos de nitrógeno (A) y picos de hospitalizaciones por enfermedades respiratiorias (B), no son eventos independientes. Es decir, que $P(A \cap B) \neq P(A)P(B)$. En otros términos, que nuestro conocimiento de A nos permite refinar nuestra estimación de B. Todo correcto.

Y termino con lo de los intervalos. Me refiero a esto y esto.

Nunca me habría atrevido a escribir sobre el tema, y exponerme, de paso, a la muy razonadas explicaciones de quienes tuvieron a bien comentarlas, si no hubiese sido por un tema personal: el recuerdo de la frustración que me supuso hacerme en su día con la teoría subyacente tanto a las pruebas de hipótesis como a la construcción de intervalos de confianza.

Esta visita adicional al tema es consecuencia de mi revisión de todo el asunto de las pruebas de hipótesis. En particular, en el caso de prueba binomial, como en esta entrada, de la que la que lees es continuación.

En particular,

binom.test(79, 100, 0.7)

# Exact binomial test
#
# data:  79 and 100
# number of successes = 79, number of trials = 100, p-value = 0.04982
# alternative hypothesis: true probability of success is not equal to 0.7
# 95 percent confidence interval:
#   0.6970846 0.8650563
# sample estimates:
#   probability of success
# 0.79

es un caso en el que la prueba rechaza (al nivel de confianza del 5% siempre) y el intervalo de confianza del parámetro cubre el valor 0.7 de partida.

A J. Tirole tiene Nobel de economía. En 2002 escribió un artículo, Some Simple Economics of Open Source, en el que trataba de explicar desde un punto de vista económico y de organización industrial el porqué de esa rareza. Aparte de cuestiones como si sería extrapolable a otros sectores distintos del del desarrollo de software.

En la sección sobre la reacción de las compañías de software frente al fenómeno del software libre tiene un apartado titulado viviendo simbióticamente de [no con] un proyecto de código abierto que termina con la frase (mi traducción):

De acuerdo con el saber popular, pruebas que rechazan acompañan a intervalos de confianza que no contienen.

Pero

foo <- function(N, p = 0.7){
  n <- qbinom(0.975, N, p)
  tmp <- binom.test(n, N, p)
  c(tmp$p.value, tmp$conf.int,
    tmp$conf.int[1] < p & p < tmp$conf.int[2])
}

res <- as.data.frame(t(sapply(20:200, foo)))
res$n <- 20:200

res[res$V1 < 0.05,]

no tiene cero filas.

Diapositivas (y código fuente) de mi charla sobre rstan

¿Cómo seleccionar un cubo al azar?

Visualización de datos de salud con nihil obstat científico

storr: como Redis, pero con R

rstan y rstanarm en Medialab-Prado este jueves

Los resultados de esta investigación tienen puntos en común con la metodología científica aunque en ningún momento tendrán la misma validez ni tampoco es su intención que la tenga

Y termino con lo de los intervalos

Otra vuelta al caso del test que rechaza y el intervalo que contiene

Premoniciones de Tirole sobre sobre el R Consortium

El test rechaza pero el intervalo contiene: [contra]ejemplos