¿El mejor formato para diseminar microdatos?

A raíz de mi entrada de ayer, se han iniciado en mi derredor algunas discusiones sobre cuál podría ser el formato indicado para diseminar microdatos. En particular, los del INE. Y el asunto no es trivial.

Hasta la fecha, el procedimiento habitual era utilizar ficheros de ancho fijo con códigos, típicamente numéricos (p.e., 1-hombre; 6-mujer). Existían diccionarios asociados con pares código-descripción que se distribuían en hojas de cálculo adjuntas; es decir, metadatos. El procedimiento tradicional, por lo tanto, equivalía a desnormalizar la información: una tabla maestra contenía claves externas y una miríada de tablas auxiliares, una por columna, resolvían esas claves a sus correspondientes descripciones.

Así que una propiedad deseable del formato de diseminación de datos es que pueda almacenar tanto códigos como sus descripciones. De usarse, p.e., CSV, habria que optar por unos u otros. O seguir manteniendo el sistema de tablas auxiliares.

Existen algunos formatos estandarizados para el intercambio de información estadística (tanto datos como sus metadatos) como SDMX. Pero solo AEMET me cae lo suficientemente mal como para recomendarle usar dialectos de XML. Otra alternativa basada en JSON, que no sé qué tal funcionaría para microdatos, es json-stat. Pero podría no ser tan popular y madura.

Si fuese el rey del mundo, obligaría a usar un formato de datos que:

  1. incluyese tanto datos como metadatos,
  2. evitase todo tipo de ambigüedades (desde los encodings hasta las fechas, si procede)
  3. estuviese medianamente estandarizado y, como consecuencia,
  4. existiesen importadores en todos los sistemas de análisis estadístico razonables.

El problema es que no sé cuál sería. Pero igual algún lector tiene alguna idea con la que iluminarnos. Y si no, para aquellos que quieran contribuir al procomún y tengan algo de tiempo libre: ¿cómo se hace en el RU, Canadá, Francia, Alemania u Holanda?

2 comentarios sobre “¿El mejor formato para diseminar microdatos?

  1. Luz 14 junio, 2018 11:34

    Un formato que podría estar bien son ficheros de BD de SQLite, resolvería varios problemas:
    – Todo tiene un tipo (fechas, enteros, …), no hay que interpretar nada. Las fechas pueden incluir timezones y se detalla el encoding de las cadenas de texto
    – No hace falta mandar un súper fichero desnormalizado, cada cosa está en su tabla. Y si se quiere facilitar, se incluye una vista
    – Quizás de lo que comentas, su punto débil sería la inclusión de aquellos meta-datos que no tengan sentido como columna extra en alguna tabla

    Aunque nunca he visto usarlo para compartir información, igual tiene algún problema que se me escapa, tipo posible incompatibilidad según versión, u otra cosa…

  2. Carlos J. Gil Bellosta 14 junio, 2018 20:00

    Pero a los que venimos de la tradición UNIX (“el texto es el formato universal”) recomendar formatos binarios nos chirría mucho…

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">