Va a ser una charla enteramente antiinstitucional y subversiva. Voy a tratar de abrir varias cajas de Pandora y liberar los correspondientes demonios. Y no voy a tener piedad con las neuronas de los asistentes: quienes acudan, que traigan unos sudokus hechos de casa a modo de calentamiento.
Quien haya recorrido Teruel, Orense, Palencia, la zona de Almadén y otras partes del interior de España abandonadas a su suerte desde hace siglos no habrá visto demasiado crío. Me acabo de enterar que a lo que se conoce como operar de vegetaciones recibe el nombre de adenoidectomía. Y he visto el mapa
Me ha dado por pensar si los autores (del gráfico) estuvieron atentos a mi bitácora cuando escribí esto.
Yo creo que no. Y que más les valiera haberlo hecho. Pero, quién sabe, igual están ellos en lo cierto y yo no. ¡Como no estaban los datos a mano para corroborarlo!
Eso sí, me guardaré muy mucho de preguntárselo en su bitácora. Una vez escribí esto, les pasé la referencia y el señor Fernández Villaverde me participó tantas y tamañas lindezas que… ¡contento me puso!
Un cliente esporádico mío, BARC, me ha pedido que le ayude a divulgar su encuesta periódica de evaluación de herramientas de lo que llaman business intelligence.
He accedido en parte, sí, porque hay que estar bien con los clientes. Sobre todo los esporádicos.
Pero también porque el mundo del BI es sumamente opaco e impera la información asimétrica. Quienes compran herramientas como SAP, Cognos, SAS, Microstrategy, etc. están a dos velas de lo que ocurre en el edificio de al lado, de los problemas que van a encontrar en su implementación, de su rendimiento en producción. Están casi totalmente a expensas de los cantos de sirena de los vendedores.
Una encuesta como la de BARC, desde la perspectiva de los clientes de herramientas de BI contribuye divulgar información sobre lo que funciona y lo que no funciona, de las ventajas y los inconvenientes de cada paquete de cedés propietarios.
Por eso creo que la encuesta es valiosa y por eso os invito (a aquellos que trabajéis en este campo) a participar en él.
Ayer, tal y como anuncié el otro día, participé en el Taller InnovaData de periodismo de datos. El vídeo de mi intervención (a partir del minuto 2:02:00 aproximadamente) puede verse en
Las diapositivas de la charla (que en el vídeo, desgraciadamente, son, por así decirlo, tanto asíncronas) pueden descargarse aquí.
The Web 1.0 was readable, the Web 2.0 was social, now the web is programmable through application programming interfaces (aka APIs)
se celebrará en Madrid APIdays Mediterranea, un encuentro de entusiastas de las APIs.
Y dentro del programa, el sábado día 1, a la una menos cuarto —una hora compatible con mis poco matutinos hábitos—, tengo asignado el taller Rapidays: Quick introduction to R & APIs al que están, por supuesto, invitados los lectores de estas páginas (y para los que podría llegar a tener descuentos para el evento completo y entradas gratuitas para mi taller en particular).
Acabo de subir a mi servidor las diapositivas de la charla describiendo un lematizador desambiguado que anuncié el otro día. Gracias a Carlos Ortega y Pedro Concejero, el vídeo de la charla está disponible en Vímeo. Por su parte, las transparencias pueden descargarse aquí.
Quiero agradecer a los asistentes a la charla su interés y, muy particularmente, su participación en el debate que se abrió al final de la sesión. Fue muy enriquecedor.
El lunes que viene, día 27 de mayo, impartiré un taller de… bueno, según el programa, de Principios básicos de estadística. En realidad quiero hablar principalmente de cómo evitar incurrir en el poco conocido error de tipo III —dar la respuesta correcta al problema equivocado— y, en particular, de tres de los fenómenos que nos conducen hacia él:
La inextricable multidimensionalidad de la realidad.
Nuestra atávica aversión a la incertidumbre.
El poco temor de Dios con que tomamos el nombre de la causalidad en vano.
Así que os invito a registraros en los talleres (existe la opción de seguirlos presencialmente o en remoto) y a los más intrépidos, a competir y optar a premios de hasta 3000 euros.
Bien escondidita en las encuestas que se publican, puede encontrarse a veces una ficha técnica. Y esta suele contener una frase de esta guisa: Partiendo de los criterios del muestreo aleatorio simple, para un nivel de confianza del 95 % (que es el habitualmente adoptado) y en la hipótesis más desfavorable de máxima indeterminación (p=q=0.5), el margen de error de los datos referidos al total de la muestra es de 3.2 puntos.
(Nota: la frase está extraída de aquí y hace referencia a una encuesta en la que no se usa el muestreo aleatorio simple y en cuyo original, el nivel de confianza habitualmente aceptado —errata, supongo— figura como del 99.5 % en lugar del 95 %; pero, total, tanto da: nadie lee y a nadie le importa la liturgia de la ficha técnica).
En fin, sigamos.
La cuestión es que el otro día una colega me preguntó lo siguiente: efectivamente, el margen de error en sus datos era, creo recordar, del 4 % bajo la consabida hipótesis conservadora de p=q=0.5. No obstante, su p estimada era de 0.14, muy lejos del 0.5 de la máxima indeterminación. Y su pregunta era: ¿cuál sería el margen razonable de error en ese caso?
El resto de los datos, a continuación:
N <-546# número de sujetos en la población
n <-182# número de sujetos muestreados
p <-0.14# proporción estimada de sujetos X
x <-ceiling(n * p)# número obtenido de sujetos X en la muestra
Llamemos a la variable (desconocida, aleatoria) que indica el número de individuos X en la población. Lo que hemos obtenido en la muestra es una visión indirecta de , típicamente representada como
Esta expresión muestra cómo la proporción (conocida, porque se mide sobre la muestra) de sujetos X depende de la variable de interés . Y nos interesa conocer el rango de valores de compatible con el valor observado, .
Para ello usaremos el teorema de Bayes,
y dada nuestra ignorancia a priori sobre $P(\theta)$, bien podemos suponerla uniforme (esto es, independiente de ), con lo cual
calcula probs, el vector de probabilidades correspondiente a la distribución a posteriori de sobre 0:N, que tiene la siguiente pinta:
Haciendo
tmp <- n.reales[order(probs)]
tmp <- tmp[cumsum(sort(probs))>0.05]range(tmp)/ N *100# 10.43956 18.68132
llegamos a la conclusión de que (con nuestras hipótesis) tenemos garantizado al 95% que el valor verdadero de la proporción estará confinado en el intervalo [0.104, 0.187]: el margen de error es del 4%.
Y cambiando el valor de p, también que el margen de error en el caso de máxima indeterminación no bajaría (mucho) del 6 % (y no del 4 % que habían anunciado: fíate de las colegas, fíate).
El Banco Central Europeo publicó un estudio sobre la riqueza de los hogares europeos en abril de 2013. A partir de él, el Bundesbank publicó otro informe que subrayaba las diferencias en riqueza entre los hogares alemanes y, supongo que entre otros, los españoles.
El informe de BCE recogía la media y la mediana del patrimonio de los hogares por países (junto con otras variables adicionales, como la renta, el nivel de endeudamiento, etc.). Obviamente, las medias son superiores a las medianas en prácticamente todas esas variables. El Bundesbank, en su informe, omitía las medias y presentaba únicamente las medianas, magnitudes que contribuían a subrayar una presunta pobreza relativa de los hogares alemanes respecto a los españoles.
Los medios españoles se hicieron eco de la noticia y publicaron artículos como:
y otros que se pueden encontrar por ahí. Algunos de ellos —salvo el de El Mundo, que confunde los conceptos— discuten la relación entre media y mediana y la elección torticera del segundo estadístico por parte del Bundesbank.
Ya he hablado previamente sobre medias y medianas en estas páginas. Y alguna vez, imagino, habré dejado escrito que si me pusiesen una pistola en la sien y me obligasen a resumir una distribución (p.e., de riqueza de los hogares) en un único número, utilizaría la mediana.
Pero eso solo si me pusiesen una pistola en la sien. Si pudiera razonar con quien me hace el encargo, trataría de convencerlo para que mostrase gráficamente la distribución completa mediante un histograma o técnica similar. ¿Por qué restringirse a un único número cuando con poco más esfuerzo se pueden tener todos? Tenemos una obsesión enfermiza por las cifras redondas, por olvidar que la realidad danza aleatoriamente alrededor de esas estacas cognitivas —las que conforman el temario de esos cursos de estadística introductoria— que clavamos en nuestros cerebros para autosugestionarnos con que comprendemos los fenómenos.
No nos restrinjamos innecesariamente, mostremos las distribuciones completas y, entre otras cosas, nos ahorraremos discusiones bizantinas sobre cuántos ángeles pueden danzar sobre la punta de un alfiler.
Coda: Guillermo de la Dehesa ha publicado recientemente un artículo, ¿Son los hogares españoles más ricos que los alemanes?, que aunque se atora momentáneamente en la inane discusión sobre la media y la mediana, tiene a bien ahondar en otros aspectos de las estadísticas, como lo que miden y lo que no miden realmente y que explican bastante bien las causas de la aparente paradoja que ha motivado tanta ida y venida de artículos.