15.1 Distribuciones de probabilidad

Esta sección puede omitirse en una primera lectura y no es esencial para lo que sigue. No obstante, puede resultar interesante para aquellos lectures con una formación matemática más sólida.

Es frecuente querer crear vectores que sigan una determinada distribución de probabilidad. Por ejemplo, pueden obtenerse vectores con una distribución uniforme (en [0, 1]) o normal (estándar):

x.uniforme <- runif(10)
x.normal   <- rnorm(13)

Casi todas las distribuciones admiten parámetros adicionales. Por ejemplo, la media y la desviación estándar para la distribución normal. Consulta la ayuda de rnorm para ver cómo muestrear una variable aleatoria normal con media 1 y desviación estándar 3. Extrae una muestra de 10000 elementos de ella y comprueba que lo has hecho correctamente usando las funciones mean y sd.

Para entender la forma de esas distribuciones, podemos construir el histograma de una muestra, como a continuación:

hist(rnorm(1000))
hist(runif(1000))
hist(rpois(1000, 5))

Busca cómo muestrear la distribución gamma.

Consulta la ayuda de rnorm, runif y rpois. ¿Qué tienen en común?

El ejercicio anterior debería poner de manifiesto cómo en R, asociada a cada distribución de probabilidad hay cuatro funciones cuyos nombres comienzan por las letras r, p, d y q. La función que comienza por r sirve para muestrear la distribución, como en los ejemplos anteriores.

La función que comienza por d es la densidad38 de la distribución. Por ejemplo, la función dnorm es la famosa campana de Gauss. Se puede representar con la función curve:

curve(dnorm(x, 0, 2), -8, 8)

La función de densidad tiene la forma ideal a la que convergen los histogramas de las muestras de la distribución. Estos histogramas serán más parecidos a ella conforme mayor sea el tamaño de la muestra. Usando términos matemáticos, aunque con cierto abuso del lenguaje, la función de densidad es el límite de los histogramas.

Usa curve para representar la densidad de la distribución beta para diversos valores de sus parámetros. Lee ?curve para averiguar cómo sobreimpresionar curvas y representa la densidad para diversas combinaciones de los parámetros con colores distintos. Puedes comparar el resultado con los gráficos que aparecen en la página de la distribución beta en la Wikipedia.

Toma una distribución cualquiera y representa el histograma. Usa el ejercicio anterior para sobreimpresionar la función de densidad sobre el histograma. Nota: recuerda que el histograma puede representar frecuencias o proporciones; usa las segundas.

La función que comienza por p es la función de probabilidad, que es la integral de la densidad. En concreto, si la función de densidad es \(f\), la función de probabilidad, \(F\), es

\[ F(x) = \int_{-\infty}^x f(x) dx. \]

Como consecuencia, es una función que crece más o menos suavemente de 0 a 1.

curve(pnorm(x, 0, 2), -8, 8)

Si \(X\) es una variable aleatoria con una función de probabilidad \(F\), entonces \(F(x) = P(X &lt; x)\). Los eventos \(X &lt; x\) son tan importantes que sus probabilidades se precalculan en \(F\).

Finalmente, la función cuyo nombre comienza por q es la que calcula los cuantiles. Es decir, es la inversa de la función de probabilidad. Por ejemplo, en el gráfico

curve(dnorm(x, 0, 2), -8, 8)
abline(v = qnorm(0.1, 0, 2), col = "red")

la probabilidad que asigna la normal a la zona que queda a la izquierda de la recta vertical roja es del 10%, valor indicado por el primer argumento de qnorm, 0.1.


  1. Los conceptos de función de densidad, de probabilidad, etc. son muy importantes, aunque no en el resto del libro. Si estás familiarizado con ellos, te servirá lo que sigue; si no, puedes ignorarlo en una primera lectura.