Varianza

Un LETF es un ETF con una L prefijada. La L significa leveraged, apalancado en español. A continuación escribiré sobre lo que distinta gente dice sobre ellos. Lo que dicen quienes los comercializan Los que los comercializan vienen a decir que un LETF duplica (los 2x) o triplica (los 3x) el rendimiento de un ETF (sin prefijo) sobre un mismo índice. Así, en el IBEX 35 hay un ETF que se llama Amundi IBEX 35 UCITS ETF Dist —y no muchos más— y un LETF que se llama Amundi IBEX 35 Doble Apalancado Diario (2x) UCITS ETF Acc.

Pensé que había hablado antes de la llamada predicción conforme. Lo habré soñado. Así que me pongo con ello. Me retrotraigo a hace unos cuantos años, antes de la explosión del deep learning, a la época en la que aún tenía vida social. Uno de los pioneros de esas técnicas me contaba un día en un restaurante cómo funcionaban. Por ejemplo, para clasificar, creaban unas funciones muy complejas cuya salida era un vector (largo) de números positivos que sumaban uno.

Comienzo hoy una serie de cuatro entradas (¡creo!) sobre diagramas causales supersimples que involucran a tres variables aleatorias: $X$, $Y$ y $Z$. En todos los casos, estaré argumentaré alrededor de en las regresiones lineales Y ~ X e Y ~ X + Z porque nos permiten leer, interpretar y comparar rápida y familiarmente los resultados obtenidos. En particular, me interesará la estimación del efecto (causal, si se quiere) de $X$ sobre $Y$, identificable a través del coeficiente de $X$ en las regresiones.

El otro día publiqué un minihilo en Twitter que terminaba con una encuesta. Proponía el siguiente problema: Quiero, abusando del lenguaje, estimar el efecto de $x$ sobre $y$ usando el modelo lineal clásico $y = a_0 + a_1 x + \epsilon_1$. Pero no puedo medir $x$ con precisión. Solo tengo una medida ruidosa/aproximada de $x$, $z = x + \eta$, donde $\eta$ es normal, independiente de $\epsilon_1$, etc. Uso el modelo $y = b_0 + b_1 z + \epsilon_2$.

Qué cafres tenéis que ser para que tenga que salir yo —precisamente yo, que tantas cosas no buenas tengo para decir del buen hombre— en defensa de Simón. Tiene delito que de todo lo que se le pueda echar en cara os hayáis fijado en una intervención en la que os trataba de desasnar para que no le anduviéseis buscando tres pies a la varianza. Es un tema que vengo tratando de antiguo en estas páginas y de ello dan fe:

Quería escribir una entrada totalmente distinta y me ha bloqueado el no contar con una buena traducción para chase noise. ¿Cazar ruido? Pero la caza es una actividad casi solipsista: dos perros y un tipo con escopeta caminando al contraviento por el orillo de un monte por si vuela una perdiz. Nada que ver con ese refrescar compulsivo de las páginas que dan cuenta de casos y decesos, tan colectivo e histérico.

El desafortunado tuit Recordatorio: el método delta (para estimar el error de funciones de variables aleatorias) https://t.co/lkfnE3I5MU — Carlos Gil Bellosta (@gilbellosta) January 20, 2020 es de lo más parecido a que me repitan unos chorizos que me ha ocurrido últimamente. Salvo que en lugar de chorizos, lo que se me manifestaban fueron años estudiando matemáticas y, por extensión, las partes más analíticas de la estadística. Con inmerecida delicadeza, se me respondió:

Será por deformación profesional, pero en los discursos electorales y particularmente en los recentísimos discursos electorales no dejo de advertir subrepticias referencias a la varianza. Casi siempre, además, presentada negativamente. Y no, no me refiero únicamente a lo de Gini y sus secuaces. Aún recuerdo cuando la política (o su manifestación más folclórica y electoralista) hacía más hincapié en la media (de diversos indicadores, para incrementarla, supongo). Yo, mientras, a contramano: el nombre de mi misma empresa es latín para un concepto muy relacionado con el v-enemigo político.

En este blog ya nos hemos graduado del “Andalucía first” (sí, esa reiterada manía a recordarnos que en Andalucía siempre hay más de todo lo que correlacione más o menos directamente con el número de habitantes). Aquí nos llama la atención otro efecto que afecta a los segundos momentos: el “La Rioja por doquier”. Verbigracia: Principado de Asturias (68,8%), La Rioja (35,5%) y Comunidad de Madrid (10,2%) registran los mayores aumentos anuales en el número de sociedades mercantiles creadas INE, un día cualquiera, en cualquier nota de prensa

Tienes dos variables aleatorias positivamente correlacionadas, $latex X$ y $latex Y$ y una muestra de $latex n$ parejas de ellas $latex (x_i, y_i)$. La esperanza de $latex X$, $latex E(X)$, es conocida y la de $latex Y$ no. Obviamente, la puedes estimar haciendo $$ E(Y) \sim \frac{1}{n} \sum_i y_i.$$ Sin embargo, la varianza del estimador $$ E(Y) \sim E(X) \frac{\sum y_i}{\sum x_i}$$ es menor. Tengo una explicación de la intuición de por qué eso es cierto en lugar de no serlo.

Si yo fuera rey, expropiaría el edificio sito en el número 212 de la Castellana de Madrid, derruiría lo existente y construiría uno imagen especular de que es el que queda justo enfrente y que contiene eso que conocemos como Instituto Nacional de Estadística. Lo llamaría, por mantener la especularidad, ENI y lo poblaría de estadísticos con una misión: No hablar ni relacionarse bajo ningún concepto con los de enfrente. Replicar sus estadísticas, proyecciones, encuestas y censos en el mismo plazo y forma pero independientemente de ellos.

Traigo a la consideración de mis lectores Sobre la Sostenibilidad Fiscal de España (II), un artículo de hace un tiempo que es una larga perífrasis alrededor de principios cualitativos muy contrastados sobre la gestión de riesgo (bajo incertidumbre, si se me tolera el pleonasmo). La conclusión es bien sabida pero el camino recorre una serie de hitos que mucho tienen que ver con lo que suelo escribir por aquí. Arranca con una afirmación desconcertante:

Tengo por ahí leído y encolado el artículo League Tables and Their Limitations: Statistical Issues in Comparisons of Institutional Performance del perínclito Spiegelhalter que toma una serie de ránkings (de colegios, de hospitales) y trata de medir cuánto tienen de sustancia y cuánto de ruido. Hace cosas muy similares a las que escribí aquí. Mi entrada, además, cuenta con la ventaja (que lo será solo para algunos) de usar la sintaxis y código de lme4 en lugar de la nomenclatura que más odio para describir los modelos mixtos utilizados.

Varianza

Lo que se dice sobre los LETFs

Breve introducción crítica a la llamada "predicción conforme"

Diagramas causales hiperbásicos (I): variables omitidas y sus consecuencias

"Proxys": error y sesgo en modelos lineales

En defensa de Simón: variaciones diarias de la mortalidad

Pokemoneando ruido

Siete llaves al sepulcro del método delta

Política y varianza

Del "Andalucía 'first'" al "La Rioja por doquier"

Un truco para reducir la varianza de un estimador

A falta de escenarios, tenemos instituciones con atribuciones solapadas

Gestión del riesgo: una perífrasis con hitos aprovechables

Incertidumbre en ránkings (o cómo la varianza es la mayor enemiga de la meritocracia)