estadística

Si no podemos saber si algo crece lineal o exponencialmente, ¿qué podemos saber?

Todos sabemos qué es el crecimiento lineal y el exponencial. Todos sabemos que las funciones lineales y exponenciales tienen un aspecto muy distinto. Sería ocioso —¿insultante incluso?— sustentar gráficamente esas afirmaciones. Por eso me llamó grandemente la atención el reciente artículo de Thomas Philippon, Additive Growth, que comienza, con mi traducción, así: De acuerdo con el libro de texto de Solow de 1956, los modelos de crecimiento económico dan por hecho que la PTF [productividad total de los factores] crece exponencialmente: $dA_t = gA_tdt$, donde $A$ es la PTF y $g$ es o bien constante o prácticamente constante.

Sobre la llamada ley del estadístico inconsciente

Es innegable que el rótulo ley del estadístico inconsciente llama la atención. Trata sobre lo siguiente: si la variable aleatoria es $X$ y la medida es $P_X$, entonces, su esperanza se define como $$E[X] = \int x dP_X(x).$$ Supongamos ahora que $Y = f(X)$ es otra variable aleatoria. Entonces $$E[Y] = \int y dP_Y(y)$$ para cierta medida (de probabilidad) $P_Y$. Pero es natural, fuerza de la costumbre, dar por hecho que

Operacionalización de la "igualdad de opotunidades"

Tiene Google (o una parte de él) un vídeo en Youtube, sobre el que me resulta imposible no comentar nada. Trata, esencialmente, de cómo operacionalizar a la hora de poner en marcha modelos esos principios de justicia, igualdad de oportunidades, etc. de los que tanto se habla últimamente. La definición de igualdad de oportunidades que se postula en el vídeo, tal vez demasiado esquemática por su orientación didáctica, es la siguiente:

Sobre la "African dummy"

2022 es un mal año para recordar un asunto sobre el que tenía anotado hablar desde los inicios del blog, allá por 2010: la llamada African dummy. Mentiría, sin embargo, si dijese que no es oportuno: está relacionado con temas que hoy se consideran importantes, aunque tratado al estilo de los noventa. Es decir, de una manera inaceptablemente —para el paladar de hogaño— distinta. La cosa es más o menos así: en el 91, a R.

UMAP, tSNE y todas esas cosas

Estaba repasando cosas sobre reducción de la dimensionalidad y, en concreto, UMAP y tSNE. Me ha parecido conveniente replantear las cosas sobre primeros principios para que todo se entienda mejor. El problema es el siguiente: Tenemos $K$ puntos $x_i$ en un espacio de dimensión $N$. Buscamos su correspondencia con otros $K$ puntos $y_i$ en un espacio de dimensión $n « N$. De manera que las configuraciones de los $x_i$ y los $y_i$ sean similares en el sentido de que la matriz de distancias $(d(x_i,x_j))$ sea parecida a la $(d(y_i, y_j))$.

El equivalente cierto (y apuntes para su aplicación en el monotema ¡tan cansino! de este tiempo)

A veces toca comparar dos variables aleatorias: ¿cuál de dos juegos preferirías? Hay muchas maneras de resolver ese problema, de una larga historia, con mejor o peor fortuna. En el fondo, hay que crear un orden en el conjunto de las variables aleatorias y, en el fondo —y perdónenme mis excolegas matemáticos—, proyectarlas de alguna manera sobre los números reales. Si este número real se elige de alguna manera razonable (p.

Nuevo vídeo en YouTube: "¿Por qué nos volvemos bayesianos con la edad?"

El vídeo que anuncio hoy, lleva ya un tiempo colgado. Pero se me ha interpuesto la serie sobre la explicación y justificación del bayesianismo y frecuentismo y he retrasado su noticia. De todos modos, es oportuno porque en el vídeo hago referencia a cosas que, cuando se rodó, aún no estaban ni escritas ni publicadas pero que el lector interesado encontrará en esa serie. Confieso que el título contiene ciertas dosis de clickbait.

Nuevo vídeo en YouTube: "Una charla de 2013 sobre la EPA"

Rescato hoy el vídeo de una conferencia mía de 2013 sobre la EPA, que estaba alojado en un portal del que probablemente acabe desapareciendo. Lo he repasado por encima y creo que sigue conteniendo cosas valiosas. Otras puede que hayan acabado desactualizadas. Espero no obstante que lo bueno aproveche y lo malo no confunda.

TF-IDF

Imaginemos que queremos categorizar textos (i.e., poder decir algo así como: el texto 1434 trata de biología). Una manera de afrontar el problema, no la única, es contar palabras (o más en general, términos: piénsese en bigramas, trigramas, etc.). Qué es Por fijar ideas, pensemos en textos sobre economía (sí, porque voy a referirme a parte del análisis de los textos del blog nadaesgratis.es al que ya me referí aquí).

El hueco térmico: una caracterización vía kmeans

El hueco térmico es una variable aleatoria que representa la necesidad de utilizar energía térmica tradicional y no renovable para abastecer el mercado eléctrico. Tiene dos fuentes principales de variabilidad: La variabilidad de la demanda. La variabilidad de las fuentes de energía renovable. [Una pequeña digresión: cuando $Y = X_1 + X_2$, la varianza de $Y$ depende de las de $X_i$ y de su correlación. Si son independientes, es la suma de las dos; si están negativamente correladas, la de $Y$ es inferior a la suma; etc.

Sumas de variables de Bernuilli heterogénas

I. El otro día planteé en Twitter la siguiente encuesta: Como bien puede apreciarse, 16 personas tuvieron a bien contestar y nada menos que siete, casi la mitad, dieron con la respuesta acertada. Me gustaría saber qué cuentas de Twitter pueden presumir de una audiencia tan cualificada. ¿Por qué es esa respuesta correcta? Sean $p_i$ las probabilidades de éxito de $n$ bernoullis y $p$ el valor medio de las $p_i$. Entonces, la varianza de $Y$ es $np(1-p) = np - np^2$ y la de $X$ es

"Frente a la aspiración de una representación precisa, debemos considerar las limitaciones conceptuales, matemáticas y computacionales"

La cita que da título a la entrada procede —con mi ¿mala? traducción— del artículo Philosophy and the practice of Bayesian statistics que, en realidad, trata de otra cosa. Pero que resume muy bien algo que mucha gente tiende a ignorar: mucho del corpus de lo que actualmente llamamos positivamente estadística está condicionado por las circunstancias conceptuales, matemáticas y, muy especialmente, computacionales del momento en el que fueron concebidos. Un ejemplo: hace cien años, aún se discutía cómo calcular la $\sigma$ de una muestra.

Matrices de confusión, sensibilidad, especificidad, curva ROC, AUC y todas esas cosas

Esta entrada es una breve introducción a los conceptos indicados en el título. Está motivada por una pregunta que se formuló en Twitter acerca de la existencia o no de lo que voy a escribir en español y a que ninguna de las respuestas aportadas me satisfizo. Todos esos conceptos hacen referencia al estudio de la bondad de un modelo de clasificación (es decir, un modelo que trata de predecir una etiqueta (o una variable categórica, si se quiere) a partir de ciertos datos).