Un generador de datos sintéticos para proteger la privacidad de los microdatados

DataSynthesizer (véase también el correspondiente artículo) es un programa en Python que:

  1. Toma una tabla de datos (microdatos, de hecho) que contiene información confidencial.
  2. Genera otra aleatoria pero que conserva (¿los conservará?) la estructura básica de la información subyacente (conteos, correlaciones, etc.).

Está pensado para poder realizar el análisis estadístico de (determinados) datos sin verlos propiamente.

Particularmente interesante es el algoritmo para preservar la correlación entre columnas.

[Nota: he aprovechado la entrada para acuñar el neologismo microdatado para referirme a quien figura en un fichero de microdatos.]

[Otra nota: está desarrollado en Python. Hay que ir tomando nota de esas cosas.]

Un comentario sobre “Un generador de datos sintéticos para proteger la privacidad de los microdatados

  1. Jesús 23 mayo, 2018 10:52

    Os…! qué interesante ¿bastará para “venderle” a un cliente que te puede pasar datos y que están a buen recaudo? y ¿cumplirá la famosa GDPR? 🙂

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">