Estimación

Sobre "Predicción, estimación y atribución"

Subrayo hoy aquí tres cuestiones que considero importantes del reciente artículo Prediction, Estimation, and Attribution de B. Efron (para otra visión, véase esto). La primera es que existe una cadena de valor en la modelización estadística que va del producto más ordinario, la predicción, a la estimación y de este, al más deseable, la atribución. En la terminología de Efron, estimación consiste en la determinación de los parámetros subyacentes (e importantes) del modelo; específicamente se refiere a la estimación puntual; atribución tiene que ver con intervalos de confianza, p-valores, etc.

Un truco para reducir la varianza de un estimador

Tienes dos variables aleatorias positivamente correlacionadas, $latex X$ y $latex Y$ y una muestra de $latex n$ parejas de ellas $latex (x_i, y_i)$. La esperanza de $latex X$, $latex E(X)$, es conocida y la de $latex Y$ no. Obviamente, la puedes estimar haciendo $$ E(Y) \sim \frac{1}{n} \sum_i y_i.$$ Sin embargo, la varianza del estimador $$ E(Y) \sim E(X) \frac{\sum y_i}{\sum x_i}$$ es menor. Tengo una explicación de la intuición de por qué eso es cierto en lugar de no serlo.

Modelización de retrasos: una aplicación del análisis de supervivencia

En vigilancia epidemiológica contamos eventos (p.e., muertes o casos de determinadas enfermedades). Lo que pasa es que el caso ocurrido en el día 0 puede notificarse con un retraso de 1, 2, 3… o incluso más días. En algunas aplicaciones, incluso semanas. ¿Cómo estimar el número de casos ocurridos el día 0 el día, p.e., 5? Se puede aplicar el análisis de la supervivencia donde el evento muerte se reinterpreta como notificación.

Trucos cutrebayesianos

El contexto Cada día $latex i$ ocurren eventos de cierta naturaleza (transacciones, fallecimientos, infartos, etc.) que interesa contar. El problema El número de eventos $latex n_i$ que ocurren el día $latex i$ no se conoce el día $latex i$ sino que va siendo conocido progresivamente los días $latex i+1, \dots$. Pero hace falta una estimación de $latex n_i$ antes del fin del mundo. Los datos La distribución de los $latex n_i$ (basados en el histórico).

La tierra gira alrededor del sol, sí, pero... ¿cuánta gente lo sabe?

Pues según la VIII Encuesta de Percepción de la Ciencia realizado por la Fundación Española para la Ciencia y la Tecnología (Fecyt), el 88.3% de los españoles (mayores de cierta edad y tal, supongo). Así lo recogen los medios que podéis consultar al respecto. Pero, ¿de acuerdo con los muy escépticos y bien informados lectores de esta página? No, a este selecto grupúsculo de irreductibles carpetovetones no nos van a engañar con unas sumitas de Excel.

Si se estudió que las autopistas eran viables, ¿por qué están ahora en quiebra?

Así titula El Mundo un artículo en el que el mismo periódico se responde: Porque los estudios de viabilidad sirvieron más para justificar la construcción que para cubrir una necesidad real. La R-3 y la R-5 absorberían 70.000 vehículos diarios según las estimaciones y el tráfico real es al menos cuatro veces inferior. En sentido contrario Gobierno, concesionarias y bancos subestimaron el coste del suelo. Los expropiados llevaron su caso a los tribunales y llegaron a multiplicar hasta en 10 veces lo que recibieron años atrás.

¿Cuántos peces hay en un lago?

Quien haya estudiado estadística o probabilidad en algún tipo de institución que ofrece educación reglada se habrá topado con el problema de estimar el número de peces de un lago. Esencialmente, lo que puede hacerse (dado que es imposible realizar un censo completo) es lo siguiente: Pescar cierto número de peces, p1, marcarlos y devolverlos al lago. Pescar cierto número de peces, p2, y contar cuántos de ellos fueron marcados el día anterior, n.