La intersección de lo interesante, lo sorprendente, lo cierto y lo basado en datos

Me interesan, obviamente, los problemas interesantes.

Me interesan los problemas en que puedo argumentar basándome en datos. Para ello, obviamente, de nuevo, tienen que existir datos con los que tratar de dar respuesta a esas preguntas interesantes del párrafo anterior.

Me interesa que los datos revelen respuestas no obvias, que no sepamos ya de antemano. Me interesa que los datos me sorprendan.

Me interesa, obviamente, que esas respuestas sorprendentes a preguntas interesantes basadas en datos sean ciertas. O que tengan visos de certeza. Cuando menos, que no se caigan en la primera revisión crítica.

Un poco más sobre el índice de poder de Banzhaf

R

En el año 2012 escribí esto, que incluye

El índice de Banzhaf para un determinado partido político mide su poder en términos del porcentaje de las posibles alianzas mínimas ganadoras en las que participa dentro de su universo total. Una alizanza es ganadora cuando reúne más de la mitad de los votos. Y es mínima cuando todos sus integrantes son necesarios para que sea ganadora; excluye, por ejemplo, la alianza trivial formada por todos los partidos.

Coaliciones de Banzhaf en el 20D

R

Usando código de una entrada anterior voy a medir el poder de cada partido político de acuerdo con Banzhaf tras las elecciones de diciembre de 2015.

escannos <- c(123, 90, 69, 40, 9, 8, 6, 2, 2, 1)
names(escannos) <- c( "pp", "psoe", "pod", "c's",
    "erc", "dl", "pnv", "iu", "bildu", "cc")
banzhaf(escannos)

da 14 coaliciones mínimas,

pp psoe
pp pod
pp c's erc dl
pp c's erc pnv
pp c's erc iu bildu
pp c's dl pnv
pp c's dl iu bildu cc
psoe pod c's
psoe pod erc dl
psoe pod erc pnv iu
psoe pod erc pnv bildu
psoe pod dl pnv iu bildu
psoe pod dl pnv iu cc
psoe pod dl pnv bildu cc

y un reparto de poder que queda de esta manera:

La primera víctima será la sintaxis

No seré yo quien condene el contar palabras en textos para inferir por dónde van los tiros. Lo he hecho y lo hago con frecuencia.

Pero lo cuestiono en algunas ocasiones. La principal, esos análisis sumarísimos de los programas electorales —p.e., en la campaña que acabamos de cerrar— que los comparan en términos del número de veces que se mencionan diversos términos o el número de páginas que dedican a diversos temas.

CRAN, r-devel, GitHub, Travis CI, pruebas automáticas y todo eso

R

Estoy harto. La gente de CRAN me devolvió (con errores) un paquete que trataba de subir. Había hecho el prescriptivo

R CMD check --as-cran etc.

y el log era una patena. Pero había un par de NOTES al pasar el test sobre la versión de desarrollo de R, r-devel. No solo hay que probar los paquetes en la versión que hay sino también en la que vendrá (tal y como está docuentado).

¿Por qué dicen "exponencial" cuando quieren decir...?

Hoy, al mostrar

hdd_capacity_overtime

he dicho exponencial. Pero me he corregido rápido y he advertido a mis alumnos:

  1. La gente dice exponencial cuando, en realidad, a lo sumo, quiere decir convexa. ¡Cuidado con los que toman el nombre de esa función en vano!
  2. Aunque la evolución parezca exponencial, en realidad, sabemos que no lo es. Trata de la evolución en capacidad de los discos duros y sabemos que hay límites físicos concretos. Lo que hoy nos parece exponencial, algún día revelará su verdadera naturaleza logística (o similar).

La combinación de observaciones y el método de mínimos cuadrados: una revisión histórica

Sabemos y se sabe desde hace mucho que un sistema lineal de n ecuaciones con m incógnitas, cuando n > m (y especialmente cuando n » m), muy probablemente no tenga solución. No obstante, sistemas así ocurren naturalmente: ahí está el modelo lineal.

En tiempos, al cálculo de los mejores coeficientes para ajustar un conjunto de datos, cuando el número de observaciones excedía el de coeficientes se lo llamó combinación de observaciones. Desde muy pronto se observó que más observaciones conducían a mejores estimaciones. Pero se tardó mucho en establecer cómo.

Pasando data.frames de R como tablas de pandas en Python usando rPython

R

Un usuario de rPython, David González Knowles, me ha facilitado su código para pasar una tabla, iris en este caso, de R a una tabla de pandas en Python usando mi paquete.

En R hay tablas de serie. En Python no. La librería pandas de Python implementa algo parecido a los data.frames. Solo que nada garantiza que un usuario de Python la tenga instalada. Por eso no hay un formato de destino claro y universal para las tablas de R a través de rPython. Y por eso, en Python, si se tiene pandas instalado, el usuario tiene que hacer algo, lo siguiente: