Comienzo por el final:
En el gráfico anterior se aprecian unos datos, generados mediante
n <- 100
x <- 1:n
y_base <- cos(2 * pi * x / 100)
y <- y_base + rnorm(n, 0, .4)
datos <- data.frame(x = x, y_base = y_base, y = y,
cos1 = cos(2 * pi * x / 100),
cos2 = cos(4 * pi * x / 100))
Identificar a un tipo raro es sencillo: el que lleva tatuada a su madre en la frente. Identificar a un tipo normal es más complicado: altura… normal, pelo… ¿moreno? Es… como… normal, ni gordo ni flaco…
Identificar transacciones de tarjeta normales es prolijo: gasta más o menos como todos en supermercados, un poco más que la media en restaurantes, no tiene transacciones de gasolineras… Identificar transacciones fraudulentas es (o puede ser) sencillo: gasta miles de euros en las farmacias de los aeropuertos y nada en otros sitios.
Hablo de MOMO de nuevo. Esta vez por culpa de la sobreestimación de las defunciones esperadas:
¿Cómo estima MOMO las defunciones esperadas? Lo voy a explicar en tres pasos que se afinan secuencialmente.
Se trata de Avinyonet del Penedès: el misterio del pueblo que se hizo rico de golpe y la entradilla lo dice todo:
Los habitantes de la pequeña localidad barcelonesa atribuyen ser los segundos con más renta a un vecino empresario
Y es que la interpretación de la media —salvo en circunstancias muy concretas y, a menudo, abstractas— no es para nada clara.
La distribución binomial (de parámetro n
, p
) es una suma de n
variables aleatorias de Bernoulli independientes de parámetro p
.
Independientes, reitero.
La distribución de Poisson es aproximadamente, una distribución binomial con un n
muy grande y un p
muy pequeño.
Los eventos subyacentes siguen siendo independientes, reitero.
Viene esto al caso de una tabla que ha circulado por Twitter,
en la que se comparan estimaciones de los parámetros $latex \lambda$ de una serie de distribuciones de Poisson… como si todas lo fuesen.
Aunque outlier local parezca oxímoron, es un concepto que tiene sentido.
Un outlier es un punto dentro de un conjunto de datos tan alejado del resto que diríase generado por un mecanismo distinto que el resto. Por ejemplo, puedes tener las alturas de la gente y alguna observación que parece producto de otra cosa como, por ejemplo, errores mecanográficos en la transcripción. Un outlier está lejos del resto. Pero, ¿cuánto?
O el porqué de la importancia de los outliers.
Hace unos días me presentaron unos datos. Demasiado buenos para ser ciertos. Casi seguro que reflejan un efecto que no es el que se quiere medir. Estaban muy fuera de rango.
Leí los 93 folios del informe de Gotham sobre Gowex. Si algo debió llamar la atención de esa gente era que la información pública de Gowex estaba plagada de outliers: consistía en una sistemática comparación de ciertas métricas públicas de la empresa con las de sus competidores. Outliers por doquier. El resto de la historia, conocido: ponerse en corto, publicar y hacer dinero.
El siempre muy benéfico Banco de Santander me ha proporcionado —onerosamente: veráse el porqué— un conjunto de datos con el que ilustrar a los lectores de este blog en el uso del paquete outliers
de R. Los datos son los siguientes:
dia <- 17:26
precio <- 10 + c( 22, 21, 39, 18, 24, 26, 26,26,29, 28 ) / 100