Carlos J. Gil Bellosta

Llevo lo que parece un siglo sin escribir en estas páginas. Y es que, en gran parte, el nuevo curso de R me consume. Y también otros asuntos jugosos y relacionados con R que iré, sin duda, desgranando en futuras, aunque previsiblemente más esporádicas, entradas.

Lo que me ocupa hoy es esto:

fichero <- getURL("sftp://usuario:contraseña@máquina/home/bla/bla/bla/fichero.txt")

¿Qué es? Es la manera de descargar directamente a R un fichero a través del protocolo SFTP (FTP seguro). En la cadena de conexión hay que indicar

Voy a partir una lanza a favor de Rosell. Aunque algún colega luego me quiera fusilar. Espero que lo podamos discutir todo luego amigablemente sea acá o en otros foros igualmente civilizados.

Las encuestas tienen algo de mágico. Parecen una versión revivida de los antiguos oráculos. No deja de sorprender que sea posible conocer la opinión de millones de personas preguntando a un par de miles de ellas, ¿verdad?

Además, los resultados de muchas encuestas se agotan en sí mismos: qué porcentaje de la gente opina esto o lo otro. Y no tienen mayor trascendencia. Ni existe un patrón contra el que medir en qué medida yerran. A lo más, una escueta ficha técnica ex-ante.

Hoy he cogido medio millón de números correspondientes a cuantías de dinero, en diversas monedas y he mirado a ver si cumplían la Ley de Benford utilizando código de Gregorio Serrano (véase también esto). El resultado ha sido

donde se aprecia cómo, efectivamente, dichas cifras parecen adecuarse a la Ley de Benford. (Hay que hacer notar, sin embargo, que el test implementado por Gregorio, el de la chi-cuadrado, arroja un p-valor de 2.2e-16, que podría llevar a algunos a cuestionar si lo que ven sus ojos es cierto y a otros a divagar sobre la aplicabilidad de pruebas de este tipo a conjuntos de datos tan grandes).

Estos días ha salido publicado un artículo mío, Microdata and k-anonymity: a quantitative approach in the Spanish context en la Revista BEIO. Trata de algunos temas de los que ya nos hemos ocupado antes en estas páginas: la anonimidad que cabe esperar en ficheros de microdatos. Y, en este caso, cuando hacen referencia a personas que viven en España.

Supongamos que se hacen públicos unos ficheros de datos en los que se han eliminado los identificadores (nombre, DNI, etc.) pero muestra ciertos datos de individuos (población de residencia, fecha de nacimiento, sexo, etc.) y otros datos (enfermedades padecidas, si ha estado en la cárcel, etc.). Es posible que haya invidiuos únicos en el fichero, es decir, que exista solo uno con esos atributos. Eso los hace reidentificables. Por ejemplo, es probable que en Ólvega (provincia de Soria) solo resida una señora nacida en una fecha determinada de los años cincuenta.

El año pasado, Juanjo Gibaja y yo organizamos nuestro primer Curso Básico de R. En esta entrada quiero anunciar su inminente reedición: ¡comienza el 11 de febrero!

Las características del curso van a seguir siendo, esencialmente, las mismas:

Es gratuito.
No da derecho a diplomas o certificados de ningún tipo.
No es presencial.
Plazas ilimitadas.
Está basado en el autoestudio: cada participante tendrá que leer y trabajar por su cuenta.
Está supervisado: los organizadores del curso nos encargaremos del programa, de dar soporte de última instancia a las preguntas abiertas por los estudiantes.
Es colaborativo: hemos desarrollado una plataforma web para que quienes sigan el curso puedan plantear preguntas y, como parte fundamental del programa, tratar de responder las de sus compañeros.
Es genérico. Cada cual quiere aprender R por un motivo distinto: unos, para analizar encuestas; otros, por su interés en la minería de datos; algunos, para analizar series temporales,… El curso está pensado para llevar a cada cual hasta el mismo umbral de su tema de interés de forma que pueda después de él avanzar en el tema por su cuenta. Pero sin hacer especial hincapié en ningún asunto concreto.
El contenido estadístico será mínimo (se limitará a algo de estadística descriptiva y poco más).

Los interesados encontrarán más información en este documento.

RapidMiner ha colgado en Youtube tres vídeos que componen un tutorial rápido que cubre la instalación y los primeros pasos de su producto:

El primero muestra el proceso de instalación de Rapidminer.
El segundo, muestra cómo construir algunos modelos sencillos con RapidMiner.
El tercero, sobre cómo instalar extensiones en RapidMiner.

Hoy, el INE, casi nos ha regalado un ejemplo perfecto de la paradoja de Simpson en la nota de prensa de las Pruebas de Acceso a la Universidad.

En efecto, según la tabla

el porcentaje de hombres aprobados superó al de mujeres en cada categoría (excepto en la muy pequeña de mayores de 45 años). Pero, sin embargo, el porcentaje de aprobados entre las mujeres supera (aunque por la mínina) al de los hombres.

Mi copia de El desarrollo de la España contemporánea, de Gabriel Tortella, ya amarillea. Igual hace 15 años que lo compré y lo leí.

Aparte de ese sustrato de conocimiento que se le puede quedar a uno prendido tras leer lo que lee, de este libro me han venido resonando con fuerza en la memoria unas cuantas líneas que se me quedaron grabadas desde fines del siglo pasado. Son estas:

La principal acción estatal para promover la igualdad regional es la inversión en capital humano, es decir, la educación, dedicando preferentemente a ellos los Fondos de Compensación Interterritorial, porque cada vez más, con el papel creciente que la técnica tiene en el desarrollo económico, es este tipo de capital el que iguala o diferencia las regiones. Por una parte, es un tipo de inversión que no se despilfarra. Incluso inversiones tan básicas como las realizadas en estructuras de transporte, canalizaciones, y otras formas de capital fijo corren el peligro de malgastarse en regiones que se despueblan, como ocurre con muchas líneas ferroviarias. No sucede lo mismo con el capital humano: aunque una zona se despueble, los emigrantes se lo llevan consigo y no se pierde. Por otra parte, aunque es cierto que el capital humano muere con los individuos, el enorme alargamiento de la esperanza de vida hace que esa inversión sea hoy tanto más productiva. Además, es bien sabido que los individuos educados transmiten su nivel educativo a sus hijos.

En el pasado nos hemos ocupado en estas páginas del desempleo. Hoy, día en el que se han anunciado los datos de la EPA del último trimestre de 2012, sale a la luz TTParo.es, un proyecto en el que he colaborado (aunque en el que todo lo que se ve es obra de Kaleidos) y que permite calcular tu tasa de paro personal.

Por ejemplo, en

puedo ver la evolución de la tasa de paro de aquellos que son como yo desde el 2005 y compararla con la general.

Hoy he impartido la primera de mis clases dentro de la asignatura Data Analysis and Visualization for Environmental Magamement del Master in Environmental Management del Instituto de Empresa. El tema, From Data to Scientific Knowledge, todo en 80 minutos.

Así que dando por hecho que mis alumnos acabarán siendo intermediarios entre quienes fabrican ciencia medioambiental y el público general (o ciertas porciones de él), he presentado:

La ciencia (experimental) como un proceso en el que las ideas se adaptan a los datos (obtenidos experimentalmente) más que como un conjunto de leyes y hechos fosilizados en libros.
Un repaso de los caveats que afectan al proceso de creación científica: reproducibilidad (y la falta de ella), incentivos perversos, pseudociencia, comparaciones múltiples, sesgo de publicación, etc.
Y, por el camino, algunas indicaciones sobre sobre datos, las licencias que gobiernan su uso, y los mecanismos para su difusión; el papel del software libre (y R, en particular), etc.

A continuación, el mapa mental del curso (creado con FreeMind):

Descarga de ficheros con R a través de sftp

Voy a partir una lanza a favor de Rosell a cuenta de la EPA

La ley de Benford en muestras pequeñas: algunas evidencias

Anonimidad en ficheros de microdatos: un estudio en el contexto español

¡Reeditamos el curso básico de R!

Tutoriales de RapidMiner en Youtube

Casi un ejemplo perfecto

El estado y la educación, según Gabriel Tortella

Tu tasa de paro personal

De los datos al conocimiento científico