¿Seguro que aplica lo del secreto estadístico?

[A esta entrada, publicada hace un tiempo y puede que con más entusiasmo que reflexión, le he añadido posteriormente, en junio de 2022, una coda con cosas que he aprendido luego.]

En la nota de prensa de la estadística de transporte de viajeros del INE de julio de 2016 (no la enlazo porque, entiendo, las notas de prensa van siendo reemplazadas en su portal) aparece la tabla

transporte_viajeros

en la que el lector podrá encontrar valores ocultos con un puntero a la nota al pie. Que dice:

Hamilton, Carnot y el Bosco

Por culpa de una nevera que no enfriaba como era debido, veinte años después, estoy repasando mi termodinámica: entropía, ciclo de Carnot, etc.

ciclo_carnot

Por culpa de Stan estoy repasando mi mecánica hamiltoniana.

hamiltonian_montecarlo

Y lo estoy disfrutando muchísimo.

Dizque hay una exposición del Bosco en El Prado. Que si cuesta 16 euros. Que si solo puedes ver los cuadros de lejos porque hay toneladas de gente del extrarradio que hace su visita anual al centro. Pero, sobre todo, que es goce estético para los que no pueden apreciar otra cosa. Paso. Déjeseme hacer en paz lo que me gusta.

Madrid, ¿"ciudad inteligente"?

Aquí leí cómo

… el Ayuntamiento [de Madrid] ha incorporado PostgreSQL como sistema gestor de bases de datos de varias aplicaciones del entorno MiNT (Madrid Inteligente) para dar servicio al…

una frase que bifurcó mi paseo por internet y me llevó, por un lado, a dar con la licitación del arrendamiento de las suscripciones de productos software POSTGRES, cosa que amerita por sí misma una entrada específica y, por el otro, me hizo que volviera a acordarme del proyecto MiNT, del que me ocuparé hoy.

Big vs small data en estadística aplicada aplicada

Tengo un proyecto entre manos. Trata de medir un efecto pequeño bajo una condición experimental (una palanca que se puede subir y bajar) con un enorme ruido de fondo (debido a factores para los que no existe la susodicha palanca). Existen dos aproximaciones que, en su versión resumida, son:

  • Datos pequeños: recoger un conjunto pequeño de mediciones en un contexto en el que los factores no controlables sean constantes (aunque en la práctica no lo vayan a ser).
  • Datos grandes: recoger muchas mediciones alterando el factor controlable a lo largo de un periodo de tiempo extenso.

Se supone —y lo advierto, sobre todo para evitar que algún purista quiera señalar que lo es— en ambos casos, que existe cierta aleatorización del factor experimental para que sea lo más ortogonal posible al ruido no controlado.

Los límites que la varianza impone a las energías renovables

El asunto de las energías renovables, a partir de cierto umbral de capacidad instalada, se convierte en uno de gestión de la varianza.

eolica_alemania

En este artículo se discuten esos problemas para el caso alemán. No trata tanto el problema de la gestión de los picos (particularmente los intradiarios) como de la variabilidad estacional, dentro del año, de la producción eólica y solar, que no se corresponde con la del consumo.

¿Quién demonios lee el segundo párrafo?

Me llega por Twitter lo que lleva por título Más suicidios y peor salud mental por la crisis en España y Grecia.

Hay una escena de la película Primera Plana resumida aquí pero que, por abreviar, reproduzco con la ayuda de Control-C y Control-V: Walter Matthau, director del Examiner, relee por encima del hombro de su redactor jefe, Jack Lemmond, mientras este redacta la gran exclusiva. “Pero, ¿no citas al Examiner?”, se queja el director. “Sí, lo pongo aquí, en el segundo párrafo”. “Y quién demonios lee el segundo párrafo?”, brama Matthau.

Lotería y elecciones: se non è vero...

Incumbent politicians tend to receive more votes when economic conditions are good. In this paper we explore the source of this correlation, exploiting the exceptional evidence provided by the Spanish Christmas Lottery. Because winning tickets are typically sold by one lottery outlet, winners tend to be geographically clustered. This allows us to study the impact of exogenous good economic conditions on voting behavior. We find that incumbents receive significantly more votes in winning provinces. The evidence is consistent with a temporary increase in happiness making voters more lenient toward the incumbent, or with a stronger preference for the status quo.

Selección de variables con bosques aleatorios

R

Desde el principio de mis tiempos he seleccionado variables relevantes como subproducto de los árboles primero y de los bosques aleatorios después. Cierto que he hecho casi inconfesables incursiones en los métodos stepwise, pero han sido marginales y anecdóticas.

La idea es casi siempre la misma, se haga a mano o con ayuda de paquetes ad hoc: las variables importantes tienden a aparecer en el modelo (o submodelos), las otras no. Todo se reduce a contar y ponderar. Hay que discurrir un poco más cuando se sospecha (o consta) que existen variables altamente correlacionadas.

Mezclas de vectores (III): las funciones involucradas

[Tiempo después de la publicación de esta entrada hice otra, esta, en la que se ahonda en la función de pérdida usada en la reconstrucción del estilo o textura de las imágenes y que en esta serie no se trató con el detalle que el asunto requiere.]

En esta tercera entrada de la serie (aquí está la primera y la segunda) quiero ocuparme de las que llamé $f_1$ y $f_2$, las funciones involucradas. Que son las que obran la magia, por supuesto. Con casi cualquier otra opción se habría obtenido una patochada, pero estas son funciones especiales.

Mezclas de vectores (II): un caso de uso

Siguiendo con el tema de la entrada de ayer, voy a tomar un vector $x_1$ tal como

vector_x1

y un vector $x_2$ como, por ejemplo,

vector_x2

para, con el concurso de unas funciones que revelaré mañana, obtener la siguiente mezcla de ambos:

vector_x_hat

Pas mal!