DataSynthesizer (véase también el correspondiente artículo) es un programa en Python que:
- Toma una tabla de datos (microdatos, de hecho) que contiene información confidencial.
- Genera otra aleatoria pero que conserva (¿los conservará?) la estructura básica de la información subyacente (conteos, correlaciones, etc.).
Está pensado para poder realizar el análisis estadístico de (determinados) datos sin verlos propiamente.
Particularmente interesante es el algoritmo para preservar la correlación entre columnas.
[Nota: he aprovechado la entrada para acuñar el neologismo microdatado para referirme a quien figura en un fichero de microdatos.]
[Otra nota: está desarrollado en Python. Hay que ir tomando nota de esas cosas.]
Os…! qué interesante ¿bastará para «venderle» a un cliente que te puede pasar datos y que están a buen recaudo? y ¿cumplirá la famosa GDPR? 🙂