Capítulo 2 Variables aleatorias

En las aplicaciones de la teoría de la probabilidad en estadística, ciencia de datos, etc., no se opera habitualmente con eventos —entendidos estos como conjuntos, tal como se definieron en el capítulo anterior— sino con las llamadas variables aleatorias. El concepto de variable aleatoria es fundamental en estadística y ciencia de datos. Gran parte del trabajo en ciencia de datos consiste en construir, entender, modelar y, posiblemente, predecir variables aleatorias.

Al introducir las variables aleatorias y, particularmente, las numéricas, es tentador comenzar a hablar de conceptos relacionados con ellas como las funciones de probabilidad, la media, la varianza, las muestras y su relación con los conceptos anteriores, etc. Hay operaciones muy comunes —¡y recomendadas!— como, por ejemplo, usar la aproximación

\[\frac{1}{n} \sum_i f(x_i)\]

para la media de la variable aleatoria \(Y = f(X)\) a partir de una muestra \(x_1, \dots, x_n\) de \(X\) pero, desgraciadamente, justificarlas adecuadamente exige de una serie de resultdos —basados en última instancia en el concepto de indepedencia de variables aleatorias— que se introducirán más adelante.

2.1 El concepto de variable aleatoria

Leer a los pioneros de la teoría de la probabilidad —Pascal, Bernoulli, Laplace, etc.— revela que el objeto de sus estudios no fueron los eventos y, mucho menos, los eventos entendidos como conjuntos. En sus textos hacen referencia más bien a las ganancias de un jugador, al número de bolas negras extraídas de una urna, la cifra de condenados a muerte por los tribunales de París, al número de niñas nacidas en Nantes, al error en unas mediciones astronómicas o al total de caras obtenidas al lanzar una moneda repetidas veces. Algunos de los teoremas clásicos de la teoría de la probabilidad se establecieron originalmente en términos así de concretos.

Los objetos citados en el párrafo anterior son casos particulares de lo que después acabaría recibiendo el nombre de variable aleatoria. El término fue tal vez usado por primera vez en 1913 por Cantelli (véase (Gil Bellosta, Carlos J. 2022a)) en un artículo donde el autor habla en abstracto de lo que él denomina una variable aleatoria —variabile casuale en el italiano original— \(X\) que asume valores reales \(x_1, \dots, x_n\) con probabilidades \(p_1, \dots, p_n\) que suman 1. La anterior es un ejemplo de un tipo muy concreto de variable aleatoria: es numérica y discreta. Pero existen muchos otros en función de:

  • La dimensionalidad. Casi todas las variables aleatorias que se considerarán en lo que sigue serán unidimensionales, pero las puede haber multidimensionales. Multidimensionales son, por ejemplo, el resultado de un partido de fútbol —que puede considerarse compuesto de dos enteros \(\ge 0\)— o el color de un píxel —que puede descomponerse, p.e., como los tres números en \([0,1]\) de su representación RGB—.
  • El hecho de ser numéricas (o cuantitativas) o cualitativas. Las cualitativas, a su vez, se tienden a clasificar como binarias –cuando solo admiten dos valores, como cara/cruz, vivo/muerto, etc.— o categóricas —cuando admiten más de dos más valores, como la provincia o el producto adquirido por un cliente—.
  • Las numéricas, que se tratarán con más detalle en este capítulo, se suelen subdividir entre continuas y discretas.
  • A medio camino entre las categóricas y las numéricas discretas, se hallan las ordinales, que toman valores categóricos pero que admiten un orden (p.e., bueno/regular/malo). Son híbridas porque, a menudo, se las trata con herramientas propias de cualquiera de las dos categorías entre las que median.

De las variables aleatorias ha llegado a decirse que la teoría de la probabilidad consiste en el estudio de sus distribuciones; cosa que, hasta cierto punto. es cierta: la práctica totalidad del trabajo en las aplicaciones de la teoría de la probabilidad consiste esencialmente en eso. Pero en el capítulo anterior se ha visto cómo los fundamentos de la teoría de la probabilidad se construyen en términos de eventos y, en el fondo, conjuntos. La relación entre ambos conceptos es más o menos la siguiente:

  • La probabilidad estudia fenómenos aleatorios. Por ejemplo, un determinado partido de fútbol.
  • De los fenómenos aleatorios nos interesan una serie de eventos que, como en el capítulo anterior, podemos modelar como conjuntos y a los que se puede asociar una probabilidad, conocida o no. Por ejemplo, el evento “ganará el equipo visitante”.
  • Muchos de estos eventos se construyen a partir de variables aleatorias. Una variable aleatoria puede ser el número \(X\) de goles marcados por el equipo local y otra, \(Y\), los del equipo visitante; entonces, el “ganará el equipo local” coincide con el evento \(Y > X\).

De acuerdo con lo anterior, las variables aleatorias determinan eventos. Por eso se emplean expresiones del tipo \(P(X = 3)\): se trata de la probabilidad del evento en el que \(X\) toma el valor \(3\). A la inversa, dado un evento \(A\), podemos construir la variable aleatoria \(X_A\) que toma el valor \(1\) si ocurre \(A\) y el valor \(0\) si ocurre el complementario. Entonces, \(P(A) = P(X_A = 1)\).

Uno puede pensar entonces: ¿por qué construyó Kolmogorov los axiomas de la teoría de la probabilidad en términos de conjuntos y no de eventos? Una de las razones es que la gran cantidad de tipos de variables aleatorias existentes (numéricas, no numéricas, etc.) deja de ser un problema cuando se piensa solo en los eventos a los que hacen referencia. Sin embargo, en la práctica y en casi todos los casos, uno puede olvidar de los eventos —entendidos como conjuntos, al estilo de los presentados en el capítulo anterior — y prestar atención únicamente a las variables aleatorias de interés en el fenómeno aleatorio objeto del estudio.

El concepto de variable aleatoria también está ligado al de muestra. Una de las maneras de entender o interpretar el concepto de variable aleatoria es como la de un dispositivo o procedimiento gracias al cual se pueden extraer muestras. Obviamente, esto no es siempre posible: es imposible —véase la siguiente nota, sin embargo—, por ejemplo, obtener una muestra de 1000 repeticiones del partido del domingo próximo. Pero si uno está estudiando, por ejemplo, un dado, uno siempre puede lanzarlo cuantas veces estime oportuno para obtener valores simulados de la variable aleatoria de interés, es decir, muestras; de hecho, el concepto de p-valor —que será tratado más adelante— nació en el estudio de un problema relacionado con el lanzamiento de doce dados nada menos que 26306 veces (Pearson 1900).

Existe una división clásica entre fenómenos repetibles (p.e, tiradas de dados) e irrepetibles (p.e., los resultados de unas determinadas elecciones). Los métodos basados en muestras (y, en definitiva, de estimación de frecuencias) parecerían entonces restringidos al estudio del primer tipo de fenómenos. Sin embargo, incluso para fenómenos irrepetibles —competiciones futbolísticas, elecciones, lanzamiento de nuevos productos, etc.— estamos acostumbrados a ver estudios basados en muestras. Sus autores construyen modelos que tratan de representar lo más fielmente posible el fenómeno en cuestión que les permiten generar simulaciones. Véase por ejemplo (Heidemanns, Gelman, and Morris 2020) como aplicación de este principio para la predicción de resultados electorales o (Suzuki et al. 2010) en el ámbito futbolístico.

Muestras de variables aleatorias, por tanto, podrían extraerse —y, de hecho, se extraen— incluso de fenómenos irrepetibles (o más propiamente: se extraen muestras de reconstrucciones sintéticas repetibles de fenómenos irrepetibles); el problema del procedimiento no reside tanto en el hecho de poder o no poder tomar muestras sino de la adecuación del modelo a la realidad.

Otra manera de entender las variables aleatorias es como mecanismos para simplificar el espacio probabilístico. Piénsese en un juego consistente en el lanzamiento de un dado. Se puede especular indefinidamente sobre qué cosa puede llegar considerarse un evento en tal juego: ¿sacar un seis después de haber lanzado el dado con la mano izquierda y haberlo hecho rebotar en un libro colocado encima de la mesa? Sin embargo, visto el fenómeno aleatorio a través de la variable aleatoria que toma los valores \(1, \dots, 6\), el espacio de eventos se simplifica: se restringe a los \(2^6\) posibles conjuntos distintos de los elementos \(1, \dots, 6\).

Esta simplificación puede en ocasiones ser excesiva. Tal vez de un fenómeno muy rico e interesante solo es posible acceder a información muy parcial proporcionada por un número limitado de variables aleatorias. Es posible que se quieran explorar ciertos eventos, pero que las variables aleatorias disponibles no proporcionen el grado de granularidad suficiente para poder realizar el estudio. Por ejemplo, la EES (Encuesta de Estructura Salarial) en España proporciona información sobre los salarios de los trabajadores en función de características tales como su nivel de estudios, antigüedad en el puesto, etc. Tiene cierta utilidad, pero si uno quiere ver cuál es el efecto de estudiar un idioma, sacarse un segundo máster, obtener una certificación de software o muchas de las cosas que hacen los trabajadores para medrar en su carrera laboral, se dará cuenta de que esa información no está disponible.

2.2 Variables aleatorias numéricas

En el resto del capítulo, así como en la mayor parte del libro, se van a utilizar fundamentalmente variables aleatorias numéricas. Parte de lo que aquí se diga se aplica con cambios menores a variables aleatorias de otro tipo, pero otras no. Queda a discreción del lector establecer las debidas correspondencias.

Entre las variables aleatorias numéricas se ha distinguido entre las discretas y continuas. Una variable aleatoria discreta \(X\) puede tomar un número finito o infinito —el término matemáticamente correcto sería aquí, más que infinito, contable— de valores distintos. Por ejemplo, si hablamos de dados, \(X\) puede tomar como valores cualquiera de los números \(1, \dots, 6\); o, si hablamos en muertos en accidentes de tráfico, cualquier valor entero mayor o igual que cero. Si \(x\) es un valor válido para \(X\), entonces \(P(X = x) \ge 0\); pero si no lo es, entonces \(P(X = x) = P(\emptyset)= 0\).

Una variable continua, sin embargo, puede tomar valores ya sea en toda la recta real o en un determinado segmento o conjunto de segmentos de ella. Las variables aleatorias continuas asignan probabilidad 0 a eventos simples del tipo \(X = a\): si \(X\) representa la altura de una persona en centímetros, \(P(X = 185) = 0\) porque nadie mide exactamente 185 cm. En realidad, al decir que alguien mide 185 cm se está dando a entender algo así como que \(184.5 \le X \le 185.5\). Tal evento sí que tendría una probabilidad \(>0\).

Hay que tener en cuenta, además, que la etiqueta discreta o continua de una variable aleatoria numérica es una descripción y no una clasificación. Tanto conceptualmente como en la práctica, aparecen variables aleatorias mixtas, combinaciones de una continua y una discreta. Por ejemplo, la distribución mensual de las ventas por cliente tiene una parte continua, que permite hablar de, p.e., \(P(1000 < X < 2000)\), pero también una parte discreta, \(P(X = 0) > 0\), que recoge la probabilidad, típicamente \(>0\), de que un cliente no haya realizado ninguna compra. Existe, de hecho, un teorema que garantiza que cualquier variable aleatoria numérica puede descomponerse de manera unívoca como la suma de una variable aleatoria continua y otra discreta.

2.3 La distribución de una variable aleatoria numérica

La primera variable aleatoria de la que se tiene noticia, la \(X\) de Cantelli en 1913, asumía valores \(x_1, \dots, x_n\) con probabilidades \(p_1, \dots, p_n\). Si \(x_3 = 7\) y \(p_3 = .1\), entonces sabemos que \(X\) asume el valor 7 el 10% de las veces. Pero en la práctica, ¿cómo podemos conocer, si es que se puede, o aproximar esos valores?, ¿cómo se puede conocer la distribución de las variables aleatorias?

Tanto los axiomas de probabilidad enunciados en el primer capítulo como conceptos como la independencia de eventos que se mostrarán más adelante, son para las probabilidades lo mismo que la gramática para el lenguaje: establecen las reglas con las que interactúan las probabilidades de la misma manera que la gramática fija las reglas con las que interactúan las palabras en el discurso. Las distribuciones, por otra parte, equivaldrían al léxico, lo que da significado a las construcciones. Porque no es suficiente saber que si \(A \subset B\), entonces \(P(A) \le P(B)\): frecuentemente también interesa conocer el valor de \(P(A)\) y \(P(B)\).

En la teoría de la probabilidad, las probabilidades de los eventos nos son siempre dadas: o se suponen conocidas o pueden conocerse de manera deductiva a través de determinados cálculos. Por ejemplo, para calcular la probabilidad de obtener dos seises y un cinco al tirar tres dados habría que encontrar el número de formas en que se puede obtener ese resultado, \(3\), y dividirlo por el número total de configuraciones posibles, \(6^3\), para obtener el resultado: 1.4% aproximadamente.

En la resolución del problema anterior —que es un ejemplo simple del tipo de problemas que plagan las introducciones a la teoría de la probabilidad y que, en muchos casos, consisten en una aplicación de la combinatoria de bachillerato— se ha aplicado implícitamente el conocido como principio de indiferencia (Principle of indifference 2021). De acuerdo con este principio —que se conoció previamente como principio de la razón insuficiente y tal vez debería llamarse principio de simetría—, si \(n\) alternativas son indistinguibles entre sí excepto por su nombre, cada una de ellas tiene —o debería tener— una probabilidad de \(1/n\). A tal efecto, Laplace dejó escrito (Laplace 1825):

La teoría de la probabilidad consiste en reducir todos los eventos del mismo tipo a cierto número de casos igualmente posibles, es decir, a eventos sobre los que tengamos la misma incertidumbre con respecto a su existencia, y en determinar el número de casos favorables al evento cuya probabilidad se busca.

El razonamiento puede aplicarse a lanzamiento de monedas —¿existe algún motivo para que no se cumpla que \(P(H) = P(T) = 1/2\)?—, de dados, etc. y, de hecho, en el problema del párrafo anterior se ha utilizado para asignar la misma probabilidad de ocurrencia a cada una de las posibles configuraciones de los tres dados.

El principio de indiferencia, no obstante, adolece de dos problemas. El primero es que, incluso en el plano abstracto, no siempre produce un resultado universalmente aceptable: léase, por ejemplo, acerca de la paradoja de Bertrand (Bertrand paradox 2022). El segundo y aún más grave, es que se trata de un principio totalmente teórico: predica sobre, por ejemplo, una moneda abstracta, no una moneda concreta, que bien pudiera tener un sesgo. El principio de indiferencia podría inducir a pensar que existe la misma probabilidad de nacer niño que niña. Sin embargo, esto no es así: la experiencia indica que en la especie humana existe una mayor probabilidad de nacer varón que hembra (Sex ratio 2020).

El principio de indiferencia es un ejemplo de los llamados argumentos epistemológicos para asignar probabilidades razonadamente a determinados tipos de sucesos: están basados en razonamientos teóricos, sin recurso empírico. Otro argumento epistemológico para asignar probabilidades a eventos es el del principio de escala. Es menos habitual, pero el lector interesado puede verlo en acción en la sección de (Feller 1971) donde se discute la distribución de Holtsmark para modelar el campo gravitacional de las estrellas. También podrá verlo fracasar un poco más adelante en la misma obra, donde se señala cómo el análisis dimensional aplicado a determinados problemas económicos por B. Mandelbrot conlleva que ciertas variables económicas tienen que seguir una distribución determinada; pero, a la vez, cómo dicho resultado abstracto no parece estar refrendado por la evidencia empírica.

Históricamente se ha observado que, en muchas ocasiones, las distribuciones asociadas a fenómenos aleatorios de naturaleza totalmente distinta siguen patrones similares. Muchos de estos patrones están estudiados y descritos: son las llamadas distribuciones de probabilidad con nombre, las que aparecen en los libros — incluido este, más adelante— o en la Wikipedia y pueden servir de plantilla para describir determinados fenómenos aleatorios. Este es el denominado principio de universalidad (relacionado, aunque no de manera excluyente, con otro resultado famoso de la teoría de la probabilidad: el teorema central del límite), que nos puede llevar a considerar como razonable que determinadas variables aleatorias sigan, por ejemplo, una distribución normal, exponencial o de Poisson con solo comprobar que cumplen ciertas propiedades simples y relativamente comunes.

Hay que tener cuidado, en todo caso, en no atribuir a las distribuciones de probabilidad con nombre propiedades universales y dar por hecho que todo fenómeno aleatorio puede describirse recurriendo a ellas. Puede que alguna de ellas, o de sus variantes, pueda usarse como aproximación suficientemente buena para algún fin concreto. Así, por ejemplo, la altura de cierta población de personas puede aproximarse razonablemente bien por una distribución normal, aunque sepamos, incluso a priori, que no es la distribución adecuada. Sin embargo, no hay garantías de que tenga que ser necesariamente así: ninguna distribución de libro se parece lo más mínimo a la distribución de los salarios en España o la edad de sus habitantes, tal como suele representarse mediante las cada vez menos propiamente denominadas pirámides poblacionales.

En la práctica, una fuente muy socorrida de información sobre la probabilidad de cierto tipo de eventos es la de las opiniones de expertos. Esas probabilidades reciben a veces el nombre de subjetivas y están muy emparentadas —algunos podrían argumentar que se trata, de hecho, de la misma cosa— con las probabilidades subjetivas presentadas en el primer capítulo. Siempre se citan como ejemplo los llamados paneles de expertos o se hace referencia al consenso de los jugadores en las casas de apuestas; pero esta información también puede obtenerse (pasivamente) o recabarse (activamente) de otras fuentes más informales e inespecíficas, como la prensa, conversaciones en redes sociales, etc. Estos procedimientos se emplean fundamentalmente para estimar la probabilidad de eventos únicos o inhabituales, como el resultado de elecciones o partidos de fútbol, la ocurrencia de accidentes nucleares graves, etc. Hay que tener en cuenta, en todo caso, que el procedimiento anterior, el recurrir a opiniones de terceros, sean no expertos, no resuelve la cuestión enteramente porque, ¿de dónde y cómo extraen esos terceros sus estimaciones de probabilidad?

A pesar de todas las opciones disponibles, el método más usado en la práctica para asignar probabilidades es el análisis de registros históricos. El estudio de los registros históricos permite asignar probabilidades a eventos del tipo:

  • Que un recién nacido sea niña.
  • Que una persona que acaba de cumplir los 80 años sobreviva un año más.
  • Que al lanzar una moneda concreta al aire se obtenga una cara.

Para muchos fenómenos no existe una alternativa a estos métodos puramente empíricos de estimación de probabilidades. La disciplina que se encarga de todas estas cuestiones ya no es la teoría de la probabilidad, sino la estadística. Que sus procedimientos funcionen como se espera, sin embargo, está explicado por la teoría de la probabilidad: se trata de la llamada ley de los grandes números, que se tratará con detenimiento más adelante.

Desgraciadamente, los registros históricos solo proporcionan información sobre cómo ha sido el mundo en el pasado —o, más bien, de cómo ha sido a través de la lente de quienes recopilaron la información—. Pero esta información podría diferir de cómo es ahora el mundo y, sobre todo, cómo nos gustaría que fuese a partir de ahora. En épocas de subversión de los principios morales como la actual, existe una discrepancia entre las probabilidades que los registros históricos asignarían a cierto tipo de eventos —particularmente, en determinados asuntos considerados sensibles— y las que el consenso moral encuentra aceptables.

Existe, por lo tanto, un modo de facto de asignar probabilidades a cierto tipo de eventos que no es ninguno de los mencionados en esta sección, que aún no tiene nombre conocido —o universalmente aceptado— mas que no por ello deja de existir y ser usado.

2.4 Apéndice matemático

Una variable aleatoria es una función entre dos espacios probabilísticos. Muy formalmente, un espacio probabilístico es una terna de tres elementos: \(\Omega\), \(B\) y \(P\). \(B\) consiste en la colección de conjuntos —los eventos del capítulo anterior— de elementos de \(\Omega\). Esta colección de eventos tiene que cumplir ciertas condiciones, como que si \(A\) y \(B\) forman parte de ella, ocurra lo mismo con \(A \cup B\), por ejemplo. En concreto, tiene que estar cerrado por las operaciones habituales sobre los conjuntos. \(P\), por su parte, es la probabilidad.

Una variable aleatoria no es entonces otra cosa que una función de \(\Omega\) en otro conjunto, \(\Omega^\prime\), que permite definir sobre él un espacio de probabilidad de la siguiente manera:

\[P(A \subset \Omega^\prime) = P(\{x \in \Omega | X(x) \in A \}).\]

¿Qué implica este formalismo en la práctica? Por ejemplo, que en el caso de la tirada de dados discutida más arriba, que el fenómeno probabilístico puede ser estudiado sobre un espacio mucho más simple donde \(\Omega = \{1, \dots, 6\}\) en lugar de uno en el que hay dados de distinto tamaño y material, que pueden ser lanzados de diversas maneras y sobre cualquier tipo de superficie, habiendo realizado o no algún tipo de ritual supersticioso previamente, etc.

2.5 Bibliografía razonada

En (Gil Bellosta, Carlos J. 2022a) se rastrea la historia del término variable independiente, que bien pudiera haber sido publicado por primera vez en (Cantelli 1913). El término parece haber sido usado por probabilistas italianos y haber saltado al francés a través de un libro de Castelnuovo, (Castelnuovo 2019). De ahí se extendió a Francia, siendo usado por Borel y Paul Lévy y, finalmente, a partir de mediados de la década de 1930, al ámbito anglosajón.

Muchos textos y cursos sobre la teoría de la probabilidad dedican un espacio introductorio al cálculo combinatorio, es decir, a la enumeración de configuraciones que cumplen ciertas condiciones preestablecidas (p.e.: ¿de cuántas maneras pueden tres dados sumar 10 puntos?). Al hacerlo, están dando por buena la aproximación a la teoría de la probabilidad señalada más arriba y aplicando más o menos explícitamente el principio de indiferencia. En este libro no se abundará en la combinatoria, pero el lector interesado puede encontrar un tratamiento accesible en (Feller 1968), (Gnedenko 1998) o cualquier otro texto análogo.

El principio de indiferencia también es fundamental en termodinámica. El concepto de entropía está relacionado con la distribución probabilística de las posiciones, velocidades y/o energías de grupos de partículas. Por ejemplo, de gases encerrados en recipientes. Y es a partir del principio de indiferencia —¿por qué debería una molécula del gas preferir una ubicación a otra en el recipiente?, etc.— que ese derivan los estados probables de dichos sistemas. Obviamente, de nada valdría aquí el principio de indiferencia si, después, los resultados teóricos no cuadrasen con los experimentales. De hecho, en termodinámica, existen varios modos del principio de indiferencia (Maxwell-Boltzmann por un lado, Bose-Einstein por otro, etc.) de los que se derivan propiedades macroscópicas distintas y permiten poder entender cuál de las aproximaciones es adecuada para el estudio de cada caso concreto. La llamada distribución de Maxwell–Boltzmann, que describe la distribución de velocidades de las partículas de un gas ideal (Maxwell–Boltzmann distribution 2022) y que no es otra que una \(\Chi^2\) con tres grados de libertad, también fue deducida usando argumentos epistemológicos.

En el capítulo se ha discutido cómo en la práctica de la ciencia de datos, se tiende a trabajar más sobre variables aleatorias que sobre los eventos propiamente dichos. Así, por ejemplo, quienes se dedican a las encuestas electorales tratan de estimar una serie de variables aleatorias: el porcentaje de voto o el número de escaños/diputados de cada partido. Sin embargo, con frecuencia, los ciudadanos están interesados en una serie de eventos concretos resultado de unas elecciones, entendidas estas como fenómenos aleatorios: qué partido ganará, si será necesaria o posible esta o aquella coalición, etc. De hecho, es sobre este tipo de eventos de los que suele tratar la prensa una vez ocurridas las elecciones y los que sin duda interesan a los ciudadanos, más allá del detalle del número concreto de escaños que haya podido lograr un partido determinado. Esta digresión (véase (Gil Bellosta, Carlos J. 2022b) para mayor detalle) sirve de denuncia de lo siguiente: uno de los motivos por los que en ciencia de datos prestamos atención a las variables aleatorias es porque operar con ellas es más cómodo; pero cómo al hacerlo, muchas veces, olvidamos que los aspectos más importantes pudieran ser otros aspectos del fenómeno aleatorio no recogido por ellas.

2.6 Ejercicios

Ejercicio 2.1 ¿Qué tipo de variable aleatoria es el código postal?

Ejercicio 2.2 Se sabe que un cuadrado aleatorio —por ejemplo, piénsese en un juego de azar donde alguien dibuja un cuadrado y otro tiene que acertar su tamaño— tiene entre 0 y 10 cm de lado. Se puede aplicar el principio de indiferencia al tamaño del lado (los números del 0 al 10 serían todos equiprobables) o, alternativamente, a su área (los números del 0 al 100 serían entonces equiprobables). Razónese entonces que el principio de indiferencia no tiene por qué proporcionar siempre una respuesta única.

Ejercicio 2.3 Cartas rojas y azules. Se pone una encima de la mesa (roja); ¿cuál es la probabilidad de que la otra cara sea también roja?

Ejercicio 2.4 Hay tres cajas cerradas y solo una contiene un premio. Seleccionas una, y antes de abrirla, alguien tiene la gentileza de tomar una de las otras dos y mostrarte que, efectivamente está vacía y te da la opción de cambiar tu elección. ¿Lo haces o te quedas con tu primera elección?

Ejercicio 2.5 ¿Cuál es la probabilidad de obtener 10 puntos al tirar tres dados? ¿Serías capaz de obtener la respuesta construyendo programáticamente (con R o Python) todas las opciones?

Ejercicio 2.6 ¿Podría entenderse que el color de un píxel en una imagen del vídeo de un partido de fútbol es una variable aleatoria relacionada con dicho fenómeno estocástico? Razona la respuesta.

Referencias

Bertrand paradox. 2022. “Bertrand Paradox (Probability) — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/w/index.php?title=Bertrand_paradox_(probability)&oldid=1113691046.

Cantelli, F. 1913. “Sulla Differenza Media Con Ripetizione.” Giornale Degli Economisti E Rivista Di Statistica 46 (Anno 24) (2): 194–99. http://www.jstor.org/stable/23223974.

Castelnuovo, Guido. 2019. Calcolo Delle Probabilità. Società Editrice Dante Alighieri.

Feller, William. 1968. An Introduction to Probability Theory and Its Applications. Vol. I. Vol. 1. Hardcover; Wiley.

Feller, William. 1971. An Introduction to Probability Theory and Its Applications. Vol. II. Second Ed. John Wiley & Sons Inc.

Gil Bellosta, Carlos J. 2022a. “El origen de uso moderno del término ’variable aleatoria’ podría estar en un artículo publicado en italiano en una revista oscura en 1913.” https://www.datanalytics.com/2022/11/29/origen-termino-variable-aleatoria/.

Gil Bellosta, Carlos J. 2022b. “Si yo fuera rey, ¿cómo serían las encuestas electorales?” https://www.datanalytics.com/2022/05/10/encuestas-electorales-cualitativas/.

Gnedenko, B. V. 1998. Theory of Probability. Taylor & Francis.

Heidemanns, M., A. Gelman, and G. Elliott Morris. 2020. “An Updated Dynamic Bayesian Forecasting Model for the Us Presidential Election.” https://hdsr.mitpress.mit.edu/pub/nw1dzd02/release/2.

Laplace, P. S. 1825. Essai Philosophique Sur Les Probabilités.

Maxwell–Boltzmann distribution. 2022. “Maxwell–Boltzmann Distribution — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/w/index.php?title=Maxwell%E2%80%93Boltzmann_distribution&oldid=1122722852.

Pearson, Karl. 1900. “X. On the Criterion That a Given System of Deviations from the Probable in the Case of a Correlated System of Variables Is Such That It Can Be Reasonably Supposed to Have Arisen from Random Sampling.” The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science 50 (302): 157–75. https://doi.org/10.1080/14786440009463897.

Principle of indifference. 2021. “Principle of Indifference — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Principle_of_indifference.

Sex ratio. 2020. “Sex Ratio — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/wiki/Sex_ratio.

Suzuki, A K, L E B Salasar, J G Leite, and F Louzada-Neto. 2010. “A Bayesian Approach for Predicting Match Outcomes: The 2006 (Association) Football World Cup.” Journal of the Operational Research Society 61 (10): 1530–9. https://doi.org/10.1057/jors.2009.127.