Carlos J. Gil Bellosta

Primero, canuto es como llamo yo a los streams: lugares por donde nos llegan datos —de sujetos que sacan dinero del cajero, de sensores de lo que sea, de clientes que llaman por teléfono—, típicamente en forma asíncrona. Es decir, que los eventos suceden cuando se les antoja, sin una periodicidad preestablecida.

Y uno quiere medir cosas. Por ejemplo, la frecuencia. O la intensidad de uso —¿cuánto se utiliza una tarjeta de crédito?—. Son estos fines para los que la gente todavía utiliza técnicas mandadas a recoger. Y ni siquiera. Podría contar la anécdota de un muy desavisado —por no decir cosas peores— que trabajaba conmigo no hace tanto. Se ufanaba de que tirando de su mucho ingenio y utilizando tecnologías punterísimas era capaz de asociar a cada sujeto de nuestra base de datos la serie temporal de sus actividades (asíncronas) durante los últimos meses. Y la verdad, a fuerza de tesón, lo consiguió durante un fin de semana en el que, me da la sensación, durmió poco. Llegó la reunión del lunes y nos contó con prolijidad de detalles sus muchos méritos y logros. Pero entonces se encogió un poco, se deshinchó un mucho y preguntó con mucha humildad: _y ahora que tengo todo esto, ¿qué más puedo hacer? _(entiéndase: para realizar un análisis estadístico del comportamiento de los sujetos).

Pues eso, que me piqué —y parte de la culpa la tiene este sujeto— con el otro problema del cumpleaños y he aquí el código —exacto salvo redondeos, no mediante simulaciones— que he usado para resolverlo:

f <- function(n, k = 365, v = NULL){

  if(is.null(v))
    v <- c(1, rep(NA, k))

  res <- 1

  for(j in (k-1):1){
    v[k-j] <- ifelse( is.na(v[k-j]), f(n, k-j, v), v[k-j])
    res    <- res - choose(k,j) * ((k-j)/k)^n * v[k-j]
  }

  res
}

f(2287)
#0.5003708
f(2286)
#0.4994142

Lo que hay al final son los ensayos últimos de mi mecanismo de cutrebúsqueda binaria para acotar la solución usando la función f. Esta función calcula la probabilidad de que una distribución aleatoria de n bolas en k urnas no deje vacía ninguna de ellas.

Nunca he entendido eso de los odds. Me refiero a eso que mencionan las películas: ocho contra uno a favor de tal, cinco contra tres a favor de cual. Y no creo que sea el único al que le son ajenos. De hecho, la página de la Wikipedia en español correspondiente a la inglesa para odds se refiere a ellas como cuotas, término que jamás hasta hoy había visto así usado. Tampoco lo han visto, se concoce, los lexicógrafos de la RAE.

Un cascarrabias escribió el otro día el siguiente alegato en contra de la homeopatía: Contra la estupidez… y la estafa. Menciona incluso a gentes aún más cascarrabias que han propuesto el manifiesto No sin evidencia.

Sus razones tendrán, pero es manifiesto que nunca han leído el articulito que G.C. Smith y J.P. Pell escribieron en diciembre de 2003 en BMJ y que lleva por título Parachute use to prevent death and major trauma related to gravitational challenge: systematic review of randomised controlled trials.

No conocía el paquete gbm. Pero como ahora ando rodeado de data scientists que no son estadísticos…

Bueno, la cuestión es que había que ajustar un modelo para el que yo habría hecho algo parecido a

dat <- read.csv("http://www.ats.ucla.edu/stat/data/poisson_sim.csv")
summary(m.glm <- glm(num_awards ~ prog + math, family = "poisson", data = dat))
# Call:
#   glm(formula = num_awards ~ prog + math, family = "poisson", data = dat)
#
# Deviance Residuals:
#   Min       1Q   Median       3Q      Max
# -2.1840  -0.9003  -0.5891   0.3948   2.9539
#
# Coefficients:
#   Estimate Std. Error z value Pr(>|z|)
# (Intercept) -5.578057   0.676823  -8.242   <2e-16 ***
#   prog         0.123273   0.163261   0.755     0.45
# math         0.086121   0.009586   8.984   <2e-16 ***
#   ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# (Dispersion parameter for poisson family taken to be 1)
#
# Null deviance: 287.67  on 199  degrees of freedom
# Residual deviance: 203.45  on 197  degrees of freedom
# AIC: 385.51
#
# Number of Fisher Scoring iterations: 6

como en esta página.

Hay un problema famoso sobre cumpleaños cuya respuesta es 23. Hoy propongo otro relacionado.

Todos los días entras a Facebook y miras cuáles de tus amigos cumplen años para enviarles una felicitación. La pregunta es: ¿cuál es el número mínimo de amigos que tienes que tener para que con una probabilidad mayor de 0.5 tengas que felicitar a alguien cada día del año?

Addenda: Véase esto.

Fijaros con lo que he tropezado:

¿Cómo funciona el invento? ¡Es capaz de calcular 10.000 correlaciones por segundo!

Estos servicios pueden contratarse aquí. Me abstengo de realizar comentarios.

El título de esta entrada es una pregunta en el sentido estricto del término: no sé qué nos estamos jugando con el anunciado fin de la neutralidad en la red y cómo podría modificar la manera en que consumimos y producimos información. Eso sí, he recopilado una serie de artículos de tirios y troyanos sobre el asunto.

Este, de un economista, está aparentemente en contra de la neutralidad. La red es una infraestructura física con una capacidad dada y es natural —argumenta— que quienes la utilicen entren en un proceso de subasta similar al que funciona para repartir otros bienes finitos (slots aeroportuarios en su ejemplo). Creo que tendría sentido, al menos como planteamiento de partida, pensar que los paquetes asociados a una conversación VoIP tuviesen preferencia sobre los de otros tipos de comunicación en que la cuasisincronía no fuese crítica.

Fueron problemas planteados por Frank Harrell, recopilados aquí y ahora traducidos por mí para mi bitácora.

Problemas de la regresión paso a paso:

La R-cuadrado obtenida está muy sesgada hacia arriba.
Los test F y chi-cuadrado que aparecen al lado de las variables no siguen dichas distribuciones.
Los intervalos de confianza son demasiado (e incorrectamente) estrechos.
Los p-valores obtenidos no tienen el significado esperado y el de corregirlos adecuadamente es un problema muy difícil.
Proporciona coeficientes sesgados y excesivamente grandes.
Tiene problemas serios en caso de colinealidad en las variables.
Está basado en métodos que fueron pensados para probar hipótesis preestablecidas.
Incrementar el número de muestras no corrige los problemas anteriores.
Nos permite no tener que pensar sobre el problema.
Consume mucho papel.

Algunas conclusiones:

R es un lenguaje de programación de alto nivel que se usa principalmente en aplicaciones estadísticas y para la generación de gráficos. El objetivo de esta guía de estilo es que nuestro código sea más fácil de leer, compartir y analizar. Las reglas de esta guía fueron consensuadas con la comunidad de usuarios de R en Google.

Resumen de las reglas de estilo
1. Nombres de ficheros: tienen la extensión .R
2. Identificacores: variable.name, FunctionName, kConstantName
3. Longitud de línea: no más de 80 caracteres
4. Indentación: dos espacios, no tabuladores
5. Espacios
6. Llaves: el primero en la misma línea; el último, solo
7. Asignaciones: usar <-, no =
8. Puntos y comas: no usarlos
9. Distribución general y ordenación
10. Comentarios: todos los comentarios comienzan con # seguido de un espacio; los comentarios dentro del código necesitan dos espacios delante de #
11. Definiciones y llamadas a funciones
12. Documentación de funciones
13. Ejemplo de función
14. Estilo para los TODO: TODO(username)
Resumen de las reglas de programación

Memoria de decaimiento exponencial y canutos asíncronos

Mi solución al otro problema del cumpleaños

De ratios, apuestas y riesgos

¿No sin evidencia?

Experimentos con el paquete gbm

El otro problema del cumpleaños

10.000 correlaciones por segundo (sin comentarios)

¿Qué nos jugamos con la neutralidad en la red?

Algunos problemas de la regresión paso a paso ("stepwise")

Guía de estilo de R (de Google)