Me llegó ayer por Twitter lo siguiente:
Lo había publicado alguien que no conocía y retuiteado (por eso me alcanzó) una persona que sigo porque me consta que sabe de unos temas pero que ignoro en qué medida está puesta en los geopolíticos y la historia económica de las naciones del mundo.
Los datos llaman la atención: son interesantes y no obvios. Pero sabemos que la intersección de lo intersante, no obvio y cierto es prácticamente el conjunto vacío.
Eso, ¡enhorabuena!
El estudio está aquí. Como no tiene enlace a datos y métodos, no puedo añadir más. Aplaudo en todo caso al autor que no preste atención a la significancia (véase en el artículo como los intervalos de confianza no cortan el cero en ningún punto) como al tamaño del efecto (aunque no justifique si es grande o pequeño). De nuevo, ¡enhorabuena!
Nota: Si alguien tiene críos en edad escolar y va a elegir una escuela u otra por lo que diga el señor Héctor Cebolla Boado como dice él, a vuelapluma, y luego se da cuenta de que se ha equivocado, que le proteste a él y no a otros.
Aunque no hay una definición exacta sobre la minería de datos… ¿cómo definiría usted Big Data?¿Qué herramientas utiliza usted para la búsqueda de datos? (públicas o privadas)
Dicen los marxistas –aunque el concepto es anterior– que un cambio cuantitativo, a partir de cierto umbral, desencadena un cambio cualitativo. Las empresas, las instituciones públicas, etc. siempre han almacenado y estudiado estadísticamente datos a nivel de subsidiaria, departamento, provincia, oficina, región, producto, etc.
Este sábado (2015-06-06), dentro de las Jornadas de Periodismo de Datos, hablaré sobre el lenguaje de los gráficos (véase el programa).
Para variar, nada de R y, aunque parezca lo contrario, nada de ggplot2. Ni tan siquiera respuestas a nada: solo preguntas que cada cual tendrá, si le place, que contestar. Y si se me hace caso, a la luz de la literatura relevante.
¿Por qué una cuestión tan abstracta? Porque sobran herramientas y recetarios sobre cómo hacer esto y aquello.
Las frecuencias naturales se utilizan como alternativa a los porcentajes para expresar probabilidades en lugar de, por ejemplo, porcentajes.
El gráfico anterior está extraído de este documento en el que sus autores argumentan que transmite más eficazmente la idea de probabilidad que los porcentajes desnudos tan habituales.
Entienden que es preferible decir que de cada 100 litros de cerveza vendidos en España, 20 se distribuyen en botella, 30 en lata y 30 en barril (¡ya sé que no suman 100!
@adolflow (en persona) viene hoy y me dice si lo he visto. ¿Qué cosa? Se refiere a lo que han publicado en El Español, España en Cifras. Lo miro por encima y encuentro
¡Tasa de paro municipal! Lo siento, @adolflow, pero tal cosa no existe. No, no es que los datos sean secretos, no sean transparentes, no sean reutilizables. Es, simplemente, que no existe.
¿Peros?
No, no hay peros. Fijáte: hay 8000 municipios y la EPA se basa en una encuesta de unos 60000 hogares.
En estos días van a celebrarse tres eventos (de los que tengo noticia) relacionados con el análisis de datos. El primero es la Segunda Edición del Taller de Periodismo de Datos, en Madrid. Extraigo de su convocatoria lo siguiente:
Durante dos fines de semana largos (octubre 24-26 y diciembre 12-14 desarrollaremos proyectos para seguir la traza del dinero público con la ayuda de expertos tales como Ben Welsh (Los Angeles Times), Mariano Zafra (El País), Juan Elosúa (España en Llamas) y el equipo de periodismo de datos de El Confidencial.
Lo dejé dicho hace un tiempo: en algún momento de esta charla expresé mis motivos.
Hay iniciativas muy encomiables que abogan por la apertura de datos. Convengo que la disponibilidad de datos de organizaciones púbicas y privadas facilitaría su fiscalización. En particular, la fiscalización que realiza la prensa: su acción sería más eficaz de no tener que jugar al gato y al ratón.
Pero hay motivos para el escepticismo. Hay motivos para pensar que la liberación de datos es condición hasta cierto punto necesaria pero en modo alguno suficiente para alcanzar esos loables objetivos.
Tropecé el otro día con un artículo en el NYT del que reproduzco (incluido el enlace) un párrafo:
Only 23 percent of respondents would now vote for the Popular Party, according to a telephone survey by Metroscopia, a pollster, and published by El País this month. That is near the lowest level since Mr. Rajoy came to power in November 2011. Meanwhile, 86 percent of those surveyed said that they did not trust Mr.
Ayer, tal y como anuncié el otro día, participé en el Taller InnovaData de periodismo de datos. El vídeo de mi intervención (a partir del minuto 2:02:00 aproximadamente) puede verse en
Las diapositivas de la charla (que en el vídeo, desgraciadamente, son, por así decirlo, tanto asíncronas) pueden descargarse aquí.
El lunes que viene, día 27 de mayo, impartiré un taller de… bueno, según el programa, de Principios básicos de estadística. En realidad quiero hablar principalmente de cómo evitar incurrir en el poco conocido error de tipo III —dar la respuesta correcta al problema equivocado— y, en particular, de tres de los fenómenos que nos conducen hacia él:
La inextricable **multidimensionalidad **de la realidad. Nuestra atávica aversión a la incertidumbre. El poco temor de Dios con que tomamos el nombre de la causalidad en vano.
El martes (2013-04-15 en formato ISO 8601) participaré en el II Barcamp de Periodismo de Datos en Medialab Prado de 5:00 a 8:00 de la tarde.
Hablaré de Tu Tasa de Paro, proyecto del que ya hablé en otra ocasión. Y aprovecharé, claro está, para promocionar R y, en particular, el paquete MicroDatosEs.
¡Estáis invitados!
Hemos talado cantidad de montes y destruido el ecosistema de miles de ardillas para fabricar el papel sobre el que discutir asuntos totalmente irrelevantes. Hablé un poco de eso hace unos días y más en ocasiones anteriores, como esta y alguna más que me da pereza ubicar.
Ahora leo en Significance cómo protesta Mark Fransham:
La BBC informó la semana pasada que “el número de desempleados descendió en 50.000 hasta los 2,53 millones en el trimestre anterior”.