El "precio medio de la electricidad" no es el precio medio de la electricidad

Por ahí se ven cosas como esta: Avisa del valor máximo, mínimo y medio de la electricidad en la mayor parte de España. Pero lo que llama precio medio no es el precio medio. Llama precio medio al resultado de select avg(pvpc) from pvpc_electricidad where date(dia_hora) = '2024-03-12' ; y no de select sum(pvpc * kwh) / sum(kwh) from pvpc_electricidad where date(dia_hora) = '2024-03-12' ; que sería lo suyo. Nótese cómo, en particular, el precio está positivamente correlacionado con el consumo —si es que el mercado eléctrico funciona como se espera de él— por lo que la primera expresión será siempre menor que la segunda.

Cartogramas "de Dorling"

R
Motivado por esta entrada construí usando muns <- st_read("data/CifraPob2023.shp") peninsula <- muns[muns$ccaa != 'Canarias',] plot(peninsula["pob_23"]) peninsula <- st_transform(peninsula, 25830) peninsula_dorling <- cartogram_dorling( x = peninsula, weight = "pob_23", k = 0.2, itermax = 100) plot(peninsula_dorling["pob_23"]) sobre unos datos que ya no recuerdo de dónde bajé. La única línea no autoexplicativa del código es peninsula <- st_transform(peninsula, 25830) que transforma las coordenadas originales de los datos en coordenadas proyectadas (o, más bien, las coordenadas proyectadas que rigen en la zona peninsular).

Cortos (casi todos sobre R)

I. ¿Que solo me haya enterado que existe la función coplot en R en 2024? Se habla de ella aquí y aquí. En el fondo, son los pequeños múltiplos de toda la vida con algunas pequeñas diferencias interesantes. II. Nota para mí: en mi próximo proyecto de predicción (de series temporales), acudir a Open Forecasting y darle una oportunidad antes y en lugar de aterrizar por inercia, por defecto y por pereza en Forecasting: Principles and Practice.

Errores en modelos. Zillow. Control de alquileres.

I. Errores en modelos A menudo he usado plot(cars$speed, cars$dist) abline(lm(dist ~ speed, data = cars), col = "red") con el que se crea la requetemanida gráfica útil para ilustrar aspectos relacionados con el ajuste de modelos. Hoy, toca de nuevo. Salvo que uno haga cosas muy extravagantes, los errores de un modelo están tanto por arriba como por debajo de la predicción. De hecho, en una amplia clase de modelos $\sum_i e_i =0$ en entrenamiento y, usualmente, la suma de los errores no debe de quedar muy lejos de cero tampoco en validación (y en el mundo real).

Los modelos bayesianos, ¿condenados a sobreajustar?

Por ese micromundo en el que muevo, circuló recientemente una polémica sobre si los métodos bayesianos sobreajustan necesaria e irremisiblemente. El desencadenante fue la publicación Bayes is guaranteed to overfit, for any model, any prior, and every data point en la que el autor sostiene que, efectivamente: Tiene sentido hablar de sobreajuste en modelos bayesianos (a diferencia de lo que sostienen otros en tanto que como los modelos bayesianos no maximizan ninguna función objetivo, no ha lugar siquiera hablar de sobreajuste).

Cortos - 01

I. Los matemáticos siempre tendemos a obviar que en muchas situaciones las magnitudes con las que se trabaja tienen unidades y que las expresiones con las que se opera tienen que ser coherentes dimensionalmente. Tanto en el muy recomendable libro Street-Fighting Mathematics como mucho más brevemente en Using dimensional analysis to check probability calculations se muestran algunas aplicaciones de razonamientos derivados de la coherencia dimensional incluso en la teoría de la probabilidad.

Lo que se dice sobre los LETFs

Un LETF es un ETF con una L prefijada. La L significa leveraged, apalancado en español. A continuación escribiré sobre lo que distinta gente dice sobre ellos. Lo que dicen quienes los comercializan Los que los comercializan vienen a decir que un LETF duplica (los 2x) o triplica (los 3x) el rendimiento de un ETF (sin prefijo) sobre un mismo índice. Así, en el IBEX 35 hay un ETF que se llama Amundi IBEX 35 UCITS ETF Dist —y no muchos más— y un LETF que se llama Amundi IBEX 35 Doble Apalancado Diario (2x) UCITS ETF Acc.

Un truco probabilístico para balanceadores de carga

Tienes N servidores y un balanceador de carga. Las peticiones de trabajo llegan al balanceador y este las enruta hacia un servidor que se encarga de procesarlas. El objetivo del balanceador es tratar de conseguir un reparto más o menos uniforme de las tareas para que ningún servidor esté sobrecargado mientras otros permanecen ociosos. En términos probabilísticos, tratar de obtener una distribución uniforme (de la carga de trabajo). Un mecanismo rudimentario de balanceo que parece que se usa por ahí es asignar las tareas al azar.

Probabilidad y banca

Traduzco y adapto un texto de Matt Levine (fuente), cuya relevancia para lo que aquí se suele tratar es más que evidente: […] el capital social de un banco, la participación de los accionistas, es solo una pequeña porción que descansa sobre un enorme iceberg de pasivos. En un banco conservador y rentable, podría haber 100€ de activos, 90€ de pasivos y, por lo tanto, 10€ de capital social. Los pasivos son ciertos y conocibles —cosas como depósitos, que deben pagarse al 100%—.

Sobre el muy necesario "Rolling Journal of Sociology"

I. El ordenador —de sobremesa— con el que trabajo habitualmente está más cerca de los diez que de los cinco años. Desde que lo compré ha avanzado la tecnología y soy consciente de que uno nuevo podría facilitarme cierto tipo de tareas. Pero para el 99% de ellas, con lo que tengo, vale. Cambiar me costaría tiempo y dinero. Me da pereza. Realmente, puedo hacer todo lo que necesito con este i5-6400 de 64GB de RAM DDR3-2133.

Unos números sobre los márgenes de la distribución

Estos días han estado tirios y troyanos tirándose los muebles a la cabeza por el asunto de los márgenes comerciales; en particular, los de frutas y verduras en los supermercados. Constantando lo desencaminados que andan muchos y como sobre el asunto he podido aprender un poco durante mi carrera, oso hoy presentar algunos conceptos y números para centrar el debate. Al final, tal vez me atreva a publicar mi propia opinión sobre el asunto.

"Outliers": las dos aproximaciones

Leyendo Taking Outlier Treatment to the Next Level me entretuve en pensar cómo la literatura sobre el tratamiento de los outliers tiende a ignorar y confundir los dos modos —o más bien, circunstancias— de enfrentarse a ellos. Por ejemplo, en ese enlace se discute alrededor de los datos y el modelo representado en, que, como veremos, pertenece a lo que llamo primer modo usando técnicas propias del segundo. Obviamente, el segundo tiene que poder ilustrarse con datos concretos.

Sobre la elipse que "mejor" se ajusta a una "nube de puntos"

Es un problema conocido ese de tener una nube de puntos $(x_i, y_i)$ y preguntarse por la mejor recta (o polinomio de grado 2, 3, etc.) que los ajusta. Pero a veces uno busca la mejor elipse. Un caso del que me acuerdo (aunque allí se buscaba un círculo, más bien), es en Calculando la redondez de una piedra con R. Yo me encontré con el problema al construir una pequeña herramienta que me ayudase a mejorar el trazo de mis elipses a mano alzada; se trata de una página web (para visitar idealmente desde una tableta con lápiz electrónico) que: