La paradoja de Simpson en el 6eiiic

El día 26 de septiembre, alrededor del mediodía, participaré en el VI Encuentro Internacional de Investigación en Información y Comunicación.

Reproduzco aquí el no particularmente breve (y de hecho, el más largo de los publicados) resúmenes por si a alguien le tienta y se acerca:

Una parte fundamental de la labor de cualquier investigador consiste en interpretar adecuadamente los datos sobre los que trabaja. Existen innumerables obstáculos que dificultan dicho proceso: desde la inadecuada preparación para el análisis cuantitativo hasta los sesgos cognitivos estudiados por Kahneman, Tversky o Gigerenzer entre otros.

Los efectos de la transparencia

Hace unos días se aprobó la Ley de Transparencia. Si en esta entrada me limitase a aplaudir este hecho, pensarían con razón mis lectores que durante estos días de silencio he sido abducido por alguna criatura extraterrestre y sometido a un lavado de cerebro que borrase de él todo atisbo de subordinación adversativa.

Pues he aquí que acabo de terminar de leer un artículo muy oportuno, Accounting for the Effects of Accountability de J. Lerner y P. Tetlock que estudia desde la óptica de la sicología y la sociología los efectos de la transparencia (que es y no es lo mismo que accountability, pero a la que aplica igualmente) en los sujetos sometidos a ella.

La paradoja de Lord

Hace unos meses una clienta me propuso un problema relativamente (¿aparentemente?) sencillo. Era el siguiente:

  • A cierto número de pacientes se les hizo una medida (de qué, es irrelevante) antes y después de un tratamiento.
  • A unos se les aplicó el tratamiento tradicional (grupo de control).
  • A otros, uno novedoso (grupo de tratamiento).

El objetivo era el obvio: ¿es mejor el nuevo tratamiento? Parece sencillo, ¿verdad?

Hay dos mecanismos obvios para tratar de verificar la hipótesis. El primero es un t-test sobre

¿Dónde deberían comenzar los ejes?

Protesta eldiario.es esta imagen capturada de un informativo de TVE:

El motivo es el habitual debate sobre los ejes truncados (que, todoy hay que decirlo, usan tirios para escándalo de troyanos y, luego, troyanos para escándalo de tirios).

Propone eldiario.es y dibuja Belén Picazo este artefacto alternativo:

Y uno se pregunta: ¿así deberían hacerse las cosas? Por ejemplo, el mismo día en que TVE publicó eso (y el anterior, y el suguiente), en otro medio aparecía este otro gráfico:

AVE vs. TGV (o la intensidad de uso del capital ferroviario fijo)

Hoy he recibido el siguiente tuit:

Entrar en http://t.co/RTKy5Ww4GN buscar Geneve-Lausanne, elegir el primer trayecto, mirar el mapa. Ver trenes en movimiento. cc @Egocrata

— Alvaro (@alvarord) September 2, 2013

Siguiendo las instrucciones indicadas, he llegado a un mapa de los derredores de Ginebra en el que se ven los trenes en movimiento (en tiempo real).

¿Existe tal cosa en España? Pues sí, usando el zoom del mapa y arrastrando convenientemente, uno puede llegar a ver el estado de la línea Madrid-Zaragoza:

El cuarteto de Anscombe

F. Anscombe escribió en 1973 el artículo Graphs in Statistical Analysis para subrayar la importancia de los gráficos en el análisis estadístico.

Esencialmente, el artículo se limita a presentar cuatro conjuntos de datos distintos con la misma media, varianza, correlación y recta de regresión (excúsenseme los abusos del lenguaje). Sin embargo tienen aspectos muy distintos:

¿Os interesa saber más al respecto? Pues tenéis esto para satisfacer el apetito de culturilla y esto otro para jugar con el cuarteto en R.

Una revisita a "El arte funcional"

Hace casi precisamente un año escribí sobre El Arte Funcional, un libro muy recomendable de Alberto Cairo.

Hice una crítica sobre una de las secciones del libro:

La sección dedicada a la cognición transita desde la morfología y fisiología del ojo (y del cerebro) hasta cuestiones sicológicas relativas a la percepción. Al final, las formas y colores de los gráficos son el alimento de estos órganos que, aunque de una asombrosa capacidad, incurren en ocasiones en errores de bulto. El que cierto tipo de representaciones gráficas (como estas) engañen al ojo no se debe a que los datos subyacentes mientan ladinamente. Se debe a que la combinación de formas y colores confunde al cerebro por causas que solo cabe buscar en él.

¿Qué ha hecho el CSIC por mí?

Reconozco que, al hablar del CSIC el otro día, tendí el trapo. Alguien entró a él en los comentarios y acabé escribiendo algo que vengo rumiando últimamente pero que me daba pereza poner en negro sobre blanco.

Lo reproduzco aquí (a petición de una atenta lectora) sin corregir ni los anacolutos:

Pues sí, dediqué más de 5 minutos, bastantes más, a navegar por las memorias del CSIC. Y me consta que en el CSIC se han publicado artículos, libros, etc. sobre diversos temas. ¡Solo faltaría que no lo hicieran!

El pomelazo del CSIC

Dado que el CSIC nos está pidiendo que hagamos algo por él, perdí un rato el otro día tratando de averiguar qué había hecho él por mí.

Navegando por sus páginas di con este documento y, al abrirlo, recibí este pomelazo en tol’ojo:

Carajo, pero ¿quién hizo eso? ¿Por qué? ¿Con qué programa? ¿Nadie en todo el CSIC levantó la voz? ¡Que hablamos del CSIC y no de un ayuntamiento menor!

"Datathon for Social Good" de Telefónica

El Datathon for Social Good es una iniciativa de Telefónica para desarrollar aplicaciones analíticas que redunden en un bien social que está teniendo lugar estos días (¡aún hay tiempo para registrarse!).

Estos son los tres tipos de datos con los que se contará:

  • Recuento de personas en el área metropolitana de Londres durante 3 semanas, por sexo, edad y grupos para cada área en rango horario. Datos inferidos de cuántos están en su hogar, en trabajo o de visita.
  • Datos abiertos y geo-localizados de medios de transporte (autobús, metro, bicicleta). Admisiones en hospitales. Localizaciones de servicios de emergencia.
  • Datos no-localizados de Twitter con el hash-tag “London”. Cantidad representativa de tuits por hora.

Además, la competición será inaugurada con una conferencia a cargo del profesor Alex “Sandy” Pentland del MIT y Gavin Starks, director del Open Data Institute el martes 3 de Septiembre.