|
Archivo
Entradas Etiquetadas ‘excel’
Hemos tratado el tema previamente en entradas como esta o esta. Pero es ahora IBM el que abunda en el tema mediante la publicación de un documento, The Risks of Using Spreadsheets for Statistical Analysis, cuyo nombre lo dice, poco más o menos, todo.
Cierto que el documento tiene como objetivo promover el uso de SPSS como alternativa y de ello se ocupa largamente su segunda mitad. Por eso es la primera la más relevante para mis lectores.
Discute en ella por qué son populares las hojas de cálculo, sus usos y sus abusos y cómo estos suponen un riesgo importante para las organizaciones que dependen de ellas para el análisis de su información. Porque, efectivamente, y entre otras cosas
- las hojas de cálculo son lenguajes de programación y,
- en particular, lenguajes de programación muy proclives a determinados tipos de errores.
Existe, doy fe, una obsesión por Excel en determinados ámbitos del que espero que a mis lectores les resulte más fácil sustraerse esgrimiendo los argumentos de IBM.
Los amantes de Excel están de enhorabuena. Ahora tienen una alternativa a RExcel, una extensión de Excel que le permite interactuar con R: XLConnect, un paquete multiplataforma de R que permite:
- Trabajar con ficheros de Excel 97 (*.xls) y OOXML (*.xlsx)
- Crear y eliminar hojas dentro de documentos
- Leer y escribir rangos de valores (ranges)
- Leer y escribir hojas de cálculo
- Añadir gráficos
- Asociar estilos a celdas
- Definir el tamaño de las filas y columnas
- Etc.
Está basado en Apache POI, una colección de librerías de Java que permiten manipular ficheros en los formatos más o menos propietarios de Microsoft. Así no es siquiera necesario tener Excel instalado. ¡Ni siquiera trabajar en Windows!
Voy a dejar aquí escrito mi argumento. Para que conste. Para tener que repetirlo cada vez que un exceladicto osa objetar. Por pereza. Para no tener sino que dar el enlace y pasar a otra cosa. Porque vamos para la primavera y es mejor dedicar el tiempo a cosas mejores que a dar vueltas sobre el mismo asunto.
El uso de tartas para visualizar fracciones está sancionado (acepción segunda) por la escuela básica: ¿quién no las vio representadas en una pizarra cuando oyó por primera vez en su vida mencionarlas palabras tres octavos, numerador y denominador? El que la formación matemática de muchos no llegase mucho más lejos unido a su prominente presencia en el endiosado Excel ha perpetuado su uso en los negocios y publicaciones para el gran público.
Pero es de notar que su uso es casi anecdótico en publicaciones científicas. Y hay sobradas razones para ello. Unas son sicológicas y tienen que ver con la inhabilidad con que el ojo percibe y compara ángulos y áreas. El siguiente gráfico, extraído de la Wikipedia, ilustra el fenómeno sin necesidad de más palabras:

La Wikipedia añade (mi traducción):
[...] es más difícil comparar el tamaño de los objetos de una gráfica cuando éstos, en lugar de en longitud, varían en área o forma. De acuerdo con la ley de las potencias de Stevens, el exponente asociado al área es 0,7, mientras que el de la longitud es 1. Esto sugiere que la longitud es mejor escala: las diferenicas percibidas se corresponden linealmente con las verdaderas.
La segunda tiene que ver con la violación de los tres principios más básicos del arte de la representación gráfica de datos, de los que ya hablé previamente. En particular, no son nada económicas: tienen un pésimo ratio información-tinta, como evidencia el siguiente gráfico,

extraído de esta magnífica bitácora, y que se resume en un único número, 9,94.
Así las cosas, apenas hay un único gráfico de tarta que me haya resultado satisfactorio. Los demás, graficaca.
Si bien en mi entrada de hace un par de días critiqué aspectos manifiestamente perfectibles de un articulillo que he leído estos días, hay en él una frase estupenda. Una frase que merece ser emarcada. Una frase de la que, por evitar que se me traspapele y para solaz de mis lectores, voy a dejar aquí constancia.
Es:
Knusel (2005) investigated tail probabilities of distributions using Excel 2003 and found that previously inaccurate algorithms in Excel have been replaced by new inaccurate algorithms.
Al autor le preocupa de viejo el problema de la representación gráfica de datos. Piensa que tiene más de arte que de ciencia. Tal vez lo dice porque no se le da bien: confunde tonos y colores y desgarbado es el adjetivo que mejor describe sus trazos.
Y como casi todo diletante maltratado de las musas, ejerce de crítico. Y voto a Dios que su crítica es acerba. Le irritan todos los gráficos de tarta (menos éste), desea toda clase de malaventura al cretino que lleva lo de Excel en Expansión y vive prisionero de otras manías semejantes.
Pero a su crecida colección de atentados contra el buen gusto y criterio (un ejemplo acatarrante) y no peor provista recopilación de otros que parecen concebidos para engañar a incautos (¡uno de tantos!) le faltaba éste:

El autor quiere proceder de impresión a sustancia y de sustancia a análisis. Observa primero cómo en el gráfico R ocupa la periferia de los proscritos (junto a un tal StatCrunch), excéntrico respecto al núcleo duro de los SAS, SPSS, Excel (¡Excel!) y Stata, lejos de la estrella verde (Best) y del circulillo (Perfect). Tal debe ser la impresión que impresiona a los impresionables hojeadores circunstanciales del artículo A comparative study of the reliability of nine statistical software packages de Kellie B. Keelinga y Robert J. Pavurb (que encontrará el interesado en la red).
Lo mostrado es un resumen gráfico que hacen los autores de unas tablas prolijas en las que se muestra la precisión (en términos de número decimales correctos) de ciertos indicadores construidos por varios paquetes estadísticos sobre una serie de conjuntos de datos recopilados por el NIST para calibrar y comparar algoritmos.
El impresionado impresionable puede entender que el gráfico es la precisión sin advertir que el efecto más importante que se aprecia en él es un artefacto del método de representación. Como los más sagaces de los lectores habrán adivinado, de las etiquetas Prin1 y Prin2 de los ejes se deduce que lo mostrado es una representación de las primeras dos componentes principales de la matriz de resultados tabulados, responsables (dice el artículo) del 60% y del 18% de la variación de los datos, respectivamente.
Pero, ¿qué miden Prin1 y Prin2 realmente? Dicen los autores que Prin1 es una general measure of overall accuracy. No especifican con qué pesos (¡ni si son todos positivos!) pero el lector podría darse medianamente por satisfecho.
¿Y Prin2? Es una measure of the contrast in performance between certain data sets, una medida de contraste entre la precisión alcanzada entre algunos (sin identificar) de los conjuntos de datos. O sea, una especie de varianza (pero que no es la varianza de toda la vida, sino otra más chachiguai). O sea, excipiente dimensional, graficaca.
Pero Prin2, de menor relevancia y con un tercio de carga factorial, se representa sobre el eje X, casi el doble de largo que el Y (¡que es el verdadearamente significativo!) desdibujando las relaciones de proximidad entre los puntos y creando asociaciones aparentes y espúreas.
¡Cuidado con las impresiones, cuidado con la graficaca!
Me preguntan cómo construir la matriz de correlaciones a partir de la de covarianzas con Excel. Mis lectores más versados en R conocerán la existencia de la función cov2cor (cuyo código fuente merece ser examinado).
Sin embargo, ¿cómo hacerlo con Excel? No es tan complicado, aunque infinitamente más prolijo: en la posición (i,j) de la matriz de correlaciones hay que asignar:
- el valor (i,j) de la correspondiente matriz de covarianzas
- dividido por la raíz cuadrada del producto de los valores (i,i) y (j,j) de la matriz de covarianzas.
Tan fácil como parece, implementarlo en Excel es poco menos que una tortura. Partiendo de una matriz de covarianzas A1:C3,

creamos una matriz adjunta de acuerdo con la fórmula que aparece en el gráfico:

Copiamos la nueva matriz y la pegamos trasponiendo los datos:

Finalmente, multiplicamos las tres matrices de acuerdo con la fórmula que aparece en el gráfico:

Quien haya seguido estas instrucciones habrá aprendido dos cosas:
- Cómo convertir una matriz de covarianzas en una de correlaciones usando Excel.
- Por qué Excel mata la productividad (y si tu productividad mensual no excede los 1000 euros, además, a entender por qué eres un mileurista).
Abundando en un tema sobre el que ya escribí hace unos días, he encontrado otro enlace desrecomendando en uso de Excel para la realización de estudios estadísticos: Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics.
¿A nadie le ha pasado jamás que Excel se empeñe en querer ser más inteligente que uno?
Un buen amigo me comentó que para ver crecer el número de visitas a su blog hablaba de Excel. Como todavía no he tenido ninguna, con su venia, tomaré prestada la idea. Por otra parte, siendo éste un blog dedicado a la estadística, la minería de datos y asuntos concomitantes, enumeraré motivos por los que, en dichos ámbitos, se desaconseja su uso.
Los enlaces son ajenos, en inglés, y, algunos, algo viejos (hacen referencias a versiones antiguas de Excel). Van ahí:
- Problems With Using Microsoft Excel for Statistics
- Spread sheet addiction, que trata problemas de las hojas de cálculo en general y de Excel en particular
- Using Excel for survey analysis
- Is Microsoft Excel an Adequate Statistics Package?
- Use of Excel for Statistical Analysis
- Should Microsoft Excel Software Be Used For Statistical Analysis Or Graphics?
- Statistical analysis using Microsoft Excel
- Statistical flaws in Excel
- Using Excel for Statistics :Tips and Warnings
- Doing statistics with a speadsheet -Perhaps not a good idea?
(Nota: varios días después de publicar esta entrada he tropezado con este otro artículo al respecto).
|