Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, II

[Esta es la segunda de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.] Terminó la primera entrada de la serie reconociendo que aún no se había entrado en materia estadística, que para ello habría que hablar de datos. Y, en efecto, la estadística principia cuando, por decirlo de manera sugerente aunque breve e imprecisa, $\theta$ genera unos datos $X$ que proporcionan pistas sobre su naturaleza.

Bayesianismo y frecuentismo bajo la óptica de la teoría de la decisión, I

[Esta es la primera de una serie de tres o cuatro entradas sobre el tema que se anuncia en el título.] $\theta$ es un valor desconocido. Por algún motivo, necesitamos encontrar un valor $\hat{\theta}$ —que podríamos llamar de cualquier manera, pero que, por lo que sigue, será podemos convenir en denominar estimación de $\theta$— tal que minimicemos una determinada función de error $$L(\theta, \hat{\theta}).$$ Por fijar ideas, un ejemplo: alguien nos puede haber dicho que ha pensado un número (entero) entre el 1 y el 10, $\theta$ y que nos dará un premio si lo acertamos, es decir, si proporcionamos un $\hat{\theta}$ y resulta que $\theta = \hat{\theta}$.

"Ensembles" meteorológicos: ¿probabilísticos o no?

Primero, una brevísima introducción al uso de ensembles en meteorología: Los metereólogos tienen modelos físicos deterministas que permiten proyectar a futuro el estado presente del tiempo (o de otros estados presentes hipotéticos). Sin embargo, esos modelos (tanto por su propia naturaleza como por las simplificaciones computacionales sin cuyo concurso las proyecciones serían materialmente inviables) son muy sensibles a las condiciones iniciales de partida (véase la gráfica anterior). Luego se realizan ensembles, i.

Uso y abuso de los "embeddings"

La variable feota por excelencia de nuestra profesión es el código postal: es categórica, tiene miles de niveles, muchos son infrecuentes, etc. Así que cuando se inventaron los embeddings, hace la tira, se me ocurrió crear uno por defecto. Es decir, una representación en baja dimensión de esa variable que pudiera aplicarse a una variedad de modelos. Y así fue hasta que al cabo de unos minutos se me ocurrió que ya existía una, muy natural, en dos dimensiones, que difícilmente iba a poder ser batida por un constructo ciego a la realidad: latitud y longitud.

Nuevo vídeo en YouTube: "Una charla de 2013 sobre la EPA"

Rescato hoy el vídeo de una conferencia mía de 2013 sobre la EPA, que estaba alojado en un portal del que probablemente acabe desapareciendo. Lo he repasado por encima y creo que sigue conteniendo cosas valiosas. Otras puede que hayan acabado desactualizadas. Espero no obstante que lo bueno aproveche y lo malo no confunda.

Herramientas para ETLs en memoria

[Antes de nada, un aviso: léase la fecha de publicación de esta entrada. Es fácil estés visitándola en algún momento futuro en el que ya esté más que caduca.] Soy muy partidario de las ETL en memoria. Cada vez es menos necesario utilizar herramientas específicas (SQL, servidores especializados, Spark, etc.) para preprocesar datos. Casi todo cabe ya en memoria y existen herramientas (hoy me concentraré en R y Python, que son las que conozco) que permiten realizar manipulaciones que hace 20 años habrían resultado impensables.

Perder ganando (o a la inversa)

Partes con un capital de 100 euros y te ofrecen un juego: se tira una moneda al aire y si sale cara, tu capital se multiplica por 1.5 (te dan 50 euros); pero si sale cruz, te quedas con el 60% de él (pierdes 40 euros). El juego tiene un valor esperado de $5$ ($= .5 \times 50 - .5 \times 40$) por lo que, bajo cierto punto de vista, merece la pena apostar.

Errores en cierto tipo de encuestas

En las encuestas a las que estamos acostumbrados se le pregunta a la gente cosas del tipo: ¿tiene Vd. perro? Luego, las respuestas se tabulan, etc. y se publican los resultados. Pero en otras —por ejemplo, en la Encuesta de percepción de la ciencia y la tecnología en España— se preguntan cosas como: ¿vivieron los primeros humanos al mismo tiempo que los dinosaurios? Y allí no se trata de averiguar qué es lo que responde la gente sino, más bien, cuánta gente sabe la respuesta.

Un ejemplo de regresión con pérdidas asimétricas

En los libros de texto, imperan las funciones de pérdida simétricas, como el RMSE o el MAE. Pero hay casos —muchos, de hecho, en la práctica— en que las pérdidas son asimétricas: es más oneroso pasarse, p.e., que no llegar. En esta entrada voy a analizar un ejemplo motivado por el siguiente tuit: El resumen de lo que sigue es el siguiente: Voy a bajar datos de producción y consumo eléctrico de REE.

Un problema no tan simple de probabilidades resuelto usando frecuencias naturales

El otro día se propuso un problema de probabilidad sencillo en su planteamiento aunque de solución no trivial (véase el planteamiento y una solución) que tenía como intención original poner a prueba las intuiciones de las probabilidades de eventos. El problema se enuncia así: Una pequeñísima proporción de recién nacidos tienen cierto rasgo (genético). Se realizan dos pruebas, A y B, para detectarlo. Sin embargo, las pruebas no son muy precisas:

TF-IDF

Imaginemos que queremos categorizar textos (i.e., poder decir algo así como: el texto 1434 trata de biología). Una manera de afrontar el problema, no la única, es contar palabras (o más en general, términos: piénsese en bigramas, trigramas, etc.). Qué es Por fijar ideas, pensemos en textos sobre economía (sí, porque voy a referirme a parte del análisis de los textos del blog nadaesgratis.es al que ya me referí aquí).

npl(nadaesgratis.es): el subproducto

Estos días me he entretenido repasando el estado del arte en NLP y otras tecnologías que hace un tiempo no toco y que, la verdad sea dicha, cambian —muy a mejor— una barbaridad. A tal fin, descargué al disco duro el texto de todas las entradas de un blog que leía en tiempos, nadaesgratis.es —unas 4388 entradas, menos unas 30 que ya no existen, a lo largo de 13 años y que vienen a ocupar, en texto no comprimido, como treinta quijotes, unos 33 MB— para mis pruebas.

El hueco térmico: una caracterización vía kmeans

El hueco térmico es una variable aleatoria que representa la necesidad de utilizar energía térmica tradicional y no renovable para abastecer el mercado eléctrico. Tiene dos fuentes principales de variabilidad: La variabilidad de la demanda. La variabilidad de las fuentes de energía renovable. [Una pequeña digresión: cuando $Y = X_1 + X_2$, la varianza de $Y$ depende de las de $X_i$ y de su correlación. Si son independientes, es la suma de las dos; si están negativamente correladas, la de $Y$ es inferior a la suma; etc.