Dime, ¿qué quieres comparar con qué?

A veces alguien me pregunta cómo representar gráficamente ciertos datos. Yo respondo casi siempre igual, casi siempre con la misma pregunta: ¿qué quieres comparar con qué? Luego se trata solo de disponer las magnitudes que se desea comparar próximas, paralelas y con un mismo eje de referencia.

Si se puede, claro.

Con el gráfico

evolucion_deuda

que acompaña al artículo La deuda atenaza la recuperación el pobre ilustrador no lo tenía fácil. Por un lado tenía que comparar la evolución de una magnitud en dos momentos distintos y lo que más claro deja es que ni ha leído Displaying Change Between Two Points in Time ni le suena lo que reza. Y haré como que no he visto esos circulillos grises al pie.

Sevilla: otro grupo local de usuarios de R

R

Me acabo de enterar que nuestros colegas de Sevilla están organizando la primera reunión de su grupo local de usuarios de R. Además, el tema es muy, muy relevante y de interés general: R Markdown.

Los detalles, aquí.

Sevillanos que seguís esta bitácora: ¡que no me entere yo que faltáis!

Los coeficientes de la regresión logística con sobremuestreo

Esta entrada viene a cuento de una pregunta en r-help-es con, por referencia, este contexto:

Tengo un dataset con 4505 observaciones en el que la variable dependiente son presencias (n=97 y clasificadas como 1) y ausencias (n=4408 y clasificadas como 0).

Y la cuestión tiene que ver con la conveniencia de utilizar una muestra equilibrada o no de los datos al ajustar una regresión logística y si procede o no utilizar pesos.

Proyecciones, estimaciones, previsiones, operaciones... y churros

¿Os acordáis de lo de las proyecciones de población a largo plazo del INE? Atentos a lo que dice el instituto sobre ellas aquí (en la sección de acuracidad):

La elaboración de esta operación no está basada en una estimación estocástica de la evolución demográfica futura. En rigor, sus resultados no deben considerarse como una estimación del futuro, ni siquiera como una previsión. No cabe, por tanto, hablar de precisión o acuracidad de los mismos.

Simpson y la plebe anumérica

Supongamos que los habitantes de un país tienen una probabilidad determinada (y no necesariamente igual) $p_i$ de comprar un determinado producto. Supongamos que se lanza una campaña publicitaria que incrementa en una cantidad fija $\epsilon$, p.e., 5%, esa probabilidad.

Supongamos, finalmente, que se trata de una cantidad que se desea estimar.

Unos individuos reciben la campaña publicitaria. Otros no. ¿Cuál es la diferencia entre las proporciones de individuos que compran el producto en uno y otro grupo? ¿$\epsilon$? ¿Es esa nuestra mejor estimación?

Descargar ficheros .gz detrás de HTTPS con R

R

El problema consiste en leer, por ejemplo, [https://stat.ethz.ch/pipermail/r-help-es/2012-August.txt.gz](https://stat.ethz.ch/pipermail/r-help-es/2012-August.txt.gz).

Desde Windows, por algún motivo, es sencillo: se puede usar download.file y luego, readLines directamente (porque no sé si sabéis que esta y otras funciones similares saben leer directamente ficheros comprimidos con gzip).

En Linux parece algo más complicado: download.file se niega a bajar ficheros usando el protocolo [https](http://en.wikipedia.org/wiki/HTTP_Secure). Lo mejor que he sabido hacer es

library(httr)
x <- GET("https://stat.ethz.ch/pipermail/r-help-es/2012-August.txt.gz")
tmp <- tempfile()
writeBin(content(x, "raw"), tmp)
res <- readLines(tmp)
unlink(tmp)

que es feo, feo, feo.

¿Un 30% de probabilidad de que llueva mañana?

¿Qué significa que [los servicios meteorológicos digan que] hay un 30% de probabilidad de que llueva mañana? Pues resulta que significa distintas cosas para distintas personas, al menos, según A 30% Chance of Rain Tomorrow: How Does the Public Understand Probabilistic Weather Forecasts?

En ese artículo Gigerenzer y sus coautores proponen a una muestra de sujetos las opciones siguientes:

  • Mañana lloverá el 30% del tiempo.
  • El 30% de los días que siguen a uno como el de hoy, llueve.
  • Lloverá en el 30% de la zona

El artículo existe precisamente porque la opción elegida por muchos de los entrevistados no es la que conocen mis lectores sin necesidad de reverlársela.

Remuestreos y tests de hipótesis

No sé si visteis el vídeo que colgué el otro día. Trataba el problema de determinar si dos poblaciones

beer  <- c(27, 20, 21, 26, 27, 31, 24,
        21, 20, 19, 23, 24,
        18, 19, 24, 29, 18, 20, 17,
        31, 20, 25, 28, 21, 27)
water <- c(21, 22, 15, 12, 21, 16, 19,
        15, 22, 24, 19, 23, 13,
        22, 20, 24, 18, 20)

tienen o no la misma media. Más concretamente, si la población beer tiene una media superior a la de water como en efecto sucede:

mean(beer)
#[1] 23.2
mean(water)
#[1] 19.22222

¿Pero es esta diferencia significativa?

Muchos plantearían un t-test:

t.test(beer, water, alternative = "greater")
# Welch Two Sample t-test
#
# data:  beer and water
# t = 3.3086, df = 39.271, p-value = 0.001007
# alternative hypothesis: true difference in means is greater than 0
# 95 percent confidence interval:
#   1.952483      Inf
# sample estimates:
#   mean of x mean of y
# 23.20000  19.22222

Pero en el vídeo se propone una alternativa basada en remuestreos:

Estadística "clásica" vs remuestreo

Hace unos años, Juanjo Gibaja y yo organizamos un “curso de estadística moderna con R”. Queríamos mostrar en él que otra estadística es posible, que con la ayuda de los ordenadores (¡y de R!) los problemas clásicos de la estadística pueden afrontarse de otra manera. Y que esta manera es más natural y accesible.

Hoy uno de nuestros antiguos alumnos nos ha agradecido que le señalásemos el camino de esos superpoderes:

cencerrilla