media

¿Cómo ha evolucionado la altura media de los animales del zoo de Madrid en los últimos años?

Antes de explicar el por qué del título de la entrada y justificarla propiamente, permítaseme mostrar esto: Es una gráfica que muestra la evolución de la altura media de los españoles durante el último siglo, aprox. Los datos son coherentes con la evidencia que muchos tenemos al recordar cómo eran los amigos de nuestros abuelos, los tamaños de las camas de antaño, la altura de las puertas y techos de las casas de pueblo, etc.

Medias ponderadas a lo Uluru

Dicen que el brote de inflación que estamos viviendo es atípico (y según algunos, menos preocupante) porque no está generalizada sino concentrada en un número pequeño de productos. Trae The Economist en su número del 6 de noviembre (de 2021) un artículo al respecto que tiene cierto interés estadístico. Comienza comparando la inflación de ahora con la de otros años donde el incremento de los precios fue, de acuerdo con cómo se computa tradicionalmente la inflación, igual, a través de la distribución de los incrementos de precios sobre las distintas categorías:

No es tanto sobre la media como sobre la maldición de la multidimensionalidad

El artículo que motiva esta entrada, When U.S. air force discovered the flaw of averages, no lo es tanto sobre la media como sobre la maldición de la multidimensionalidad. Podría pensarse que es una crítica a la teoría del hombre medio de Quetelet en tanto que niega la existencia de ese sujeto ideal. Pero lo que dice es una cosa sutilmente distinta: Using the size data he had gathered from 4,063 pilots, Daniels calculated the average of the 10 physical dimensions believed to be most relevant for design, including height, chest circumference and sleeve length.

Política y varianza

Será por deformación profesional, pero en los discursos electorales y particularmente en los recentísimos discursos electorales no dejo de advertir subrepticias referencias a la varianza. Casi siempre, además, presentada negativamente. Y no, no me refiero únicamente a lo de Gini y sus secuaces. Aún recuerdo cuando la política (o su manifestación más folclórica y electoralista) hacía más hincapié en la media (de diversos indicadores, para incrementarla, supongo). Yo, mientras, a contramano: el nombre de mi misma empresa es latín para un concepto muy relacionado con el v-enemigo político.

Todo libro de estadística básica debería tener un enlace al este artículo

Se trata de Avinyonet del Penedès: el misterio del pueblo que se hizo rico de golpe y la entradilla lo dice todo: Los habitantes de la pequeña localidad barcelonesa atribuyen ser los segundos con más renta a un vecino empresario Y es que la interpretación de la media —salvo en circunstancias muy concretas y, a menudo, abstractas— no es para nada clara.

Un truco para reducir la varianza de un estimador

Tienes dos variables aleatorias positivamente correlacionadas, $latex X$ y $latex Y$ y una muestra de $latex n$ parejas de ellas $latex (x_i, y_i)$. La esperanza de $latex X$, $latex E(X)$, es conocida y la de $latex Y$ no. Obviamente, la puedes estimar haciendo $$ E(Y) \sim \frac{1}{n} \sum_i y_i.$$ Sin embargo, la varianza del estimador $$ E(Y) \sim E(X) \frac{\sum y_i}{\sum x_i}$$ es menor. Tengo una explicación de la intuición de por qué eso es cierto en lugar de no serlo.

Lo que las diferencias de medias evocan

Si a uno le dicen que la diferencia de medias de determinado atributo entre sujetos de tipo A y sujetos de tipo B es 5, uno tiende a pensar (o, más bien, tengo esa sensación) que la diferencia de dicho atributo entre un representante al azar de A y uno al azar de B será alrededor de 5. Igual porque nos han educado mostrándonos imágenes no muy distintas de Lo cual tiene cierto sentido cuando A y B tienen poblaciones homogéneas.

Un problema: cómo muestrear histogramas con medias. La vía de los trapecios

Me refiero muy impropiamente con histogramas con medias a algo parecido a que son resúmenes de datos en los que aparecen no solo intervalos sino también las medias correspondientes a los sujetos dentro de esos intervalos. Si uno quiere hacer cosas con esos datos tiene una vía que consiste en muestrear el histograma. Pero la media en cada intervalo será su punto central, no necesariamente su valor medio conocido. Por simplificar, supongamos que tenemos datos en el intervalo [0, 1] cuya media es $latex \mu$.

Así se inventó el nudo gordiano del "hombre medio"

Lo cuenta muy bien Todd Rose en How the Idea of a ‘Normal’ Person Got Invented. Hay tres grandes eras en la estadística moderna: La queteliana, resumida en la imagen del hombre medio: existe un prototipo sobre el que, tal vez, se consideran variaciones. Es decimonónica, pero colea. La kamediana, que es una versión pizza partida en ocho de la anterior. Es de mitad del siglo pasado y perdura en paleomentes.

Experimentos con "extremely small data": la media muestral de pocas betas

Aquí, contracorriente. Dejamos aparcado el big data y le damos a lo que nos da de comer. Entre otras cosas, este pequeño experimento con muy pequeños datos (¿tres?). La aplicación es real. Y los datos pequeños porque son carísimos. Se puede suponer que tienen distribución beta de parámetros desconocidos. Nos interesa la media muestral de unas pocas observaciones: dos, tres, cuatro,… En particular, qué distribución tiene. Si fuesen muchos, podríamos aplicar el teorema central del límite (que funciona estupendamente incluso con valores no muy grandes).

Distribuciones sin media: ¿qué pueden suponer en la práctica?

Aunque esta entrada es sin duda resabida de los más de mis lectores, quedarán los que aún no sepan que ciertas distribuciones no tienen media. Condición necesaria para que una distribución la tenga es que $$ \int_{-\infty}^\infty |x| f(x) dx$$ tenga un valor finito, cosa que, por ejemplo, no cumple la de Cauchy. Igual hay a quien esto le parece una rareza matemática, un entretenimiento de math kiddies sin implicaciones prácticas.

El extraño caso de la media empírica menguante

La distribución lognormal es la exponencial de una distribución normal. Su media, Wikipedia dixit, es $latex \exp(\mu + \sigma^2 /2)$. Dada una muestra de la distribución lognormal (y supuesto, por simplificar, $latex \mu=0$), podemos calcular su media y una estimación de su $latex \sigma$ y calcular $latex \exp(\sigma^2 /2)$ y uno pensaría que los valores deberían ser similares. Mas pero sin embargo, library(ggplot2) set.seed(123) sigmas <- seq(1, 10, by = 0.