Notas (9): Algunos enlaces y comentarios sobre temas estadísticos

Mills ratio and tail thickness — John D. Cook nos habla de la razón de Mills ($\int_x^\infty f(t) dt / f(x)$) para estudiar el grosor de las colas de las distribuciones de probabilidad. Por ejemplo, aunque una distribución t con muchos grados de libertad es muy similar a una normal en la parte central, la razón de Mills las distingue claramente por su distinto comportamiento en las colas. What is “workflow” and why is it important? — Sobre el flujo de trabajo del análisis de datos (con inspiración bayesiana), según Andrew Gelman (y sus coautores). R Workflow es la reinterpretación de Frank Harrell del mismo asunto. ...

23 de febrero de 2026 · Carlos J. Gil Bellosta

Discos duros, análisis de la supervivencia y bañeras evanescentes

En el análisis de la supervivencia, el concepto de riesgo está alineado con el general: a más riesgo, mayor probabilidad de evento (o deceso). El riesgo se entiende como función del tiempo, $r(t)$. Su gráfica permite comparar el riesgo en distintos periodos. Si el riesgo es plano, la distribución temporal de los eventos es exponencial. Creo que solo sucede en los libros, sobre todo los que hablan de la radiactividad. ...

28 de octubre de 2025 · Carlos J. Gil Bellosta

La recurrente vuelta de la frenología y algunos asuntos más

En A Conversation with Sir David Cox se lee: Reid: Me gustaría preguntarle sobre su trabajo al principio de su carrera en la Wool Industries Research Association. ¿Qué tipo de lugar era y qué tipo de puesto tenía usted allí? Cox: Bueno, Henry Daniels lo ha descrito un poco en una entrevista reciente (Whittle, 1993). Era un tipo de organización muy común en el Reino Unido en ese momento, financiada por el gobierno y por dinero obtenido de un impuesto al sector, para realizar investigaciones básicas sobre problemas relacionados con la industria; y en ese momento tenía un director extraordinario que simplemente tenía la idea de contratar a personas y, en gran medida, dejarlas trabajar por su cuenta, con su apoyo. […] ...

18 de febrero de 2025 · Carlos J. Gil Bellosta

Sobre la verosimilitud de distribuciones "compuestas"

Si tenemos una distribución continua (que depende de un parámetro $\alpha$) $f_\alpha$ y una muestra blablablá $x_1, \dots, x_n$, la verosimilitud asociada es $$\prod_{i = 1}^n f_\alpha(x_i).$$ Si tenemos una distribución discreta (que depende de un parámetro $\beta$) $p_\beta$ y una muestra blablablá $y_1, \dots, y_m$, la verosimilitud asociada es $$\prod_{i = 1}^m p_\beta(y_i).$$ Pero si tenemos una mezcla de distribuciones, una continua $f_\alpha$ y una discreta $p_\beta$ y una muestra blablablá $x_1, \dots, x_n, y_1, \dots, y_m$, ¿la verosimilitud asociada sigue siendo ...

21 de noviembre de 2024 · Carlos J. Gil Bellosta

Cinco asuntos breves sobre modelización estadística

Hoy, cinco breves comentarios sobre dos temas distintos relacionados con la modelización estadística. Sobre el primero, técnicas alternativas de modelización, tres enlaces: What is elastic weight consolidation?, una técnica para afinar el entrenamiento de modelos profundos. Imagínese que a un LLM ya existente le queremos enseñar, por ejemplo, legislación penal española. En tanto que lo reentrenamos con el código penal, no queremos que olvide todo lo demás que aprendió penosamente. Una técnica que se emplea es la llamada elastic weight consolidation, donde, como en elastic-net, se penaliza el que los pesos se desvíen de un valor de referencia. En elastic-net, ese valor de referencia es el cero. En elastic weight consolidation, son los pesos del modelo inicial. Porque queremos pesos, obviamente, distintos de los iniciales pero no demasiado lejos de ellos. (Queda como ejercicio para el lector la reinterpretación bayesiana del párrafo precedente). Universal estimation with Maximum Mean Discrepancy (MMD) habla de cómo se puede usar MMD como función de pérdida al ajustar modelos. El MMD es el método de los momentos de toda la vida, pero a lo bestia, es decir, aproximándolos todos ellos a la vez. Se puede ver una aplicación —ya obsoleta por las nuevas IA generadoras de imágenes— aquí. No tengo ninguna opinión particular sobre el uso de números complejos en el suavizado exponencial. No tengo claro qué se gana (¿algún grado de libertad?), pero dejo constancia de que alguien, en algún lugar, parece estar usándolo. El segundo, sobre dos aspectos importantes de la modelización estadística: ...

22 de octubre de 2024 · Carlos J. Gil Bellosta

El principio de mediocridad como instrumento para estimar duraciones

Esta entrada trata de explicar cómo utilizar el llamado principio de mediocridad para la estimación de la duración de cosas cuando apenas se sabe nada al respecto. En ese sentido, extiende y fundamente lo que puede leerse aquí. Planteamiento Consideremos el conjunto $A$ de todos los pares de números (reales, que todo hay que decirlo) $0 < a < b$. En todo lo que sigue, $b$ se interpretará como la duración total de algo (la existencia de la especie humana, el número de semanas que una obra teatral estará en cartel, etc.) y $a$ el momento en el que un observador ha contemplado la existencia de ese algo. ...

12 de mayo de 2022 · Carlos J. Gil Bellosta

¿Viven más los ganadores de los Óscars (que otros actores no premiados)?

La respuesta es sí. Al menos, si haces caso a las principales cuñadofuentes que puedes encontrar buscando en Google sobre el asunto o el cuñadolibro que critiqué el otro día (y que, dicho sea de paso, ilustra el nivel de los sujetos a los que encomendamos la educación de las futuras generaciones patrias). Pero la respuesta es no. Un estudio de esas características tiene un serio riesgo de selección —efectivamente, para ganar un Óscar tienes que haber sobrevivido lo suficiente— que el primer y descuidado estudio sobre el asunto no tuvo la precaución de corregir. ...

15 de junio de 2021 · Carlos J. Gil Bellosta

La ley de la cerveza para pintar nubes (y su relación con el análisis de la supervivencia)

El otro día pregunté a en un grupo de amigos, físicos mayormente, si les sonaba de alguna esquinita teórica de la carrera en que apareciese alguna función de la forma $$ x(t) = \exp\left(-\int_0^t f(x) dx\right)$$ y uno, que trabaja en el mundo del videojuego dio con la línea 401 del código que aparece aquí y que sirve para pintar las nubes hiperrealistas que aparecen en la misma página. Es una aplicación de la ley de Beer en la que mis lectores más sofisticados reconocerán el estrecho vínculo con el análisis de la superviencia. En este caso, la que trata de sobrevivir es una intensidad luminosa que atraviesa diversos medios que la van atenuando. Al ser potencialmente heterogéneos, la función de supervivencia adquiere la forma ...

1 de junio de 2020 · Carlos J. Gil Bellosta

No leáis nada de lo que diga este inepto: no sabe por dónde le pega el aire

Hay gente que va dándoselas de nosequé y luego resulta que no sabe por dónde le pega el aire. Veámoslo hablando de análisis de la supervivencia: En cualquier caso, con datos de esa naturaleza (isótopos radioactivos, enfermos de cáncer, etc.) no se informa la vida media sino, generalmente, la semivida. Es decir, cuánto tiempo pasa hasta que se liquida la mitad de una cohorte. En este caso, lo suyo sería estimar la semivida ponderada por importe. ...

29 de mayo de 2020 · Carlos J. Gil Bellosta

Sobre la función de riesgo en el análisis de la supervivencia

Tienes una función de supervivencia y piensas que es posible aproximarla usando segmentos de exponencial usando primero una rejilla gruesa, y luego cada vez más fina, hasta que sean indistinguibles. Las distintas aproximaciones son $$ \hat{S}(t) = \exp\left(-\sum_{i \le n} \lambda_i \Delta - \lambda_n (t - t_n)\right)$$ donde $n$ es el índice del intervalo que contiene a $t$ los $\lambda_i$ son los coeficientes en los segmentos de exponencial. Esa expresión que converge a ...

28 de mayo de 2020 · Carlos J. Gil Bellosta