Graficaca a tutiplén

2011-1-5 (Última modificación: 2011-1-5)

Al autor le preocupa de viejo el problema de la representación gráfica de datos. Piensa que tiene más de arte que de ciencia. Tal vez lo dice porque no se le da bien: confunde tonos y colores y desgarbado es el adjetivo que mejor describe sus trazos.

Y como casi todo diletante maltratado de las musas, ejerce de crítico. Y voto a Dios que su crítica es acerba. Le irritan todos los gráficos de tarta (menos éste), desea toda clase de malaventura al cretino que lleva lo de Excel en Expansión y vive prisionero de otras manías semejantes.

Pero a su crecida colección de atentados contra el buen gusto y criterio (un ejemplo acatarrante) y no peor provista recopilación de otros que parecen concebidos para engañar a incautos (¡uno de tantos!) le faltaba éste:

El autor quiere proceder de impresión a sustancia y de sustancia a análisis. Observa primero cómo en el gráfico R ocupa la periferia de los proscritos (junto a un tal StatCrunch), excéntrico respecto al núcleo duro de los SAS, SPSS, Excel (¡Excel!) y Stata, lejos de la estrella verde (Best) y del circulillo (Perfect). Tal debe ser la impresión que impresiona a los impresionables hojeadores circunstanciales del artículo A comparative study of the reliability of nine statistical software packages de Kellie B. Keelinga y Robert J. Pavurb (que encontrará el interesado en la red).

Lo mostrado es un resumen gráfico que hacen los autores de unas tablas prolijas en las que se muestra la precisión (en términos de número decimales correctos) de ciertos indicadores construidos por varios paquetes estadísticos sobre una serie de conjuntos de datos recopilados por el NIST para calibrar y comparar algoritmos.

El impresionado impresionable puede entender que el gráfico es la precisión sin advertir que el efecto más importante que se aprecia en él es un artefacto del método de representación. Como los más sagaces de los lectores habrán adivinado, de las etiquetas Prin1 y Prin2 de los ejes se deduce que lo mostrado es una representación de las primeras dos componentes principales de la matriz de resultados tabulados, responsables (dice el artículo) del 60% y del 18% de la variación de los datos, respectivamente.

Pero, ¿qué miden Prin1 y Prin2 realmente? Dicen los autores que Prin1 es una general measure of overall accuracy. No especifican con qué pesos (¡ni si son todos positivos!) pero el lector podría darse medianamente por satisfecho.

¿Y Prin2? Es una measure of the contrast in performance between certain data sets, una medida de contraste entre la precisión alcanzada entre algunos (sin identificar) de los conjuntos de datos. O sea, una especie de varianza (pero que no es la varianza de toda la vida, sino otra más chachiguai). O sea, excipiente dimensional, graficaca.

Pero Prin2, de menor relevancia y con un tercio de carga factorial, se representa sobre el eje X, casi el doble de largo que el Y (¡que es el verdadearamente significativo!) desdibujando las relaciones de proximidad entre los puntos y creando asociaciones aparentes y espúreas.

¡Cuidado con las impresiones, cuidado con la graficaca!