¿Seguro que aplica lo del secreto estadístico?

En la nota de prensa de la estadística de transporte de viajeros del INE de julio de 2016 (no la enlazo porque, entiendo, las notas de prensa van siendo reemplazadas en su portal) aparece la tabla

transporte_viajeros

en la que el lector podrá encontrar valores ocultos con un puntero a la nota al pie. Que dice:

A fin de mantener el secreto estadístico, no se publican los datos de las comunidades autónomas de Illes Balears, Cantabria, Comunidad Foral de Navarra y La Rioja y de las ciudades autónomas de Ceuta y Melilla.

Sobre el secreto estadístico, el mismo INE dice:

La legislación sobre secreto estadístico obliga a difundir la información estadística de manera que no pueda saberse, ni siquiera indirectamente, a quién corresponde un dato particular. Por eso, la información aquí presentada ha sido sometida a ciertas técnicas de protección que, sin mermar su utilidad a efectos estadísticos, impiden deducir, ni siquiera aproximadamente, cuál es el perfil de una persona concreta.

¿En serio procede ocultar el número de miles de viajeros que cogieron el bús en Mallorca o Logroño? ¿En serio piensan que eso permite reidentificar a un usuario particular?

Addenda: Creo que la foto

vaca_pixelada

donde (presuntamente, porque no he podido verificar la autenticidad) Google Street View pixela la cabeza de una vaca acompaña estupendamente la presente entrada.

7 comentarios sobre “¿Seguro que aplica lo del secreto estadístico?

  1. Daniel 15 Septiembre, 2016 12:07

    La palabra reidentificar no aparece en el diccionario de la RAE, realmente me pregunto si no sería más sencillo utilizar la palabra identificar o determinar la identidad. El prefijo re se suele utilizar como repetición. reidentificar podría significar hallar la identidad de una persona que ha cambiado de identidad o algo similar.

    Por otro lado, es conocido que la fecha de nacimiento, el código zip y el sexo nos permiten determinar la identidad del 87% de los americanos, visto este sorprendente ejemplo es natural que las compañias apliquen unas reglas más estrictas cuando las poblaciones objeto de estudio son de tamaño reducido. Evidentemente un único dato es poco valioso pero al combinar distintos datos de distintas fuentes puede obtenerse una gran cantidad de información, es por ello que puede parecer sorprendente que un dato concreto se oculte pero el plan estratégico es evitar que la combinación de pequeñas pistas conduzca a conclusiones que dañen la privacidad de la población. Evidentemente sería muy útil dar a conocer al público este tipo de estrategias para explicar lo que en principio parece sorprendente cuando se considera de un modo aislado.

  2. Carlos J. Gil Bellosta 15 Septiembre, 2016 12:53

    No voy a decir que en temas lingüísticos no hay nada escrito sino, más bien, al revés: hay tantas cosas escritas que uno puede agarrarse a cualquier cosa para acabar haciendo lo que más le viene en gana. Incluido el usar cocreta. Los anglosajones usan reidentificar con, precisamente, ese significado: revelar la identidad de la persona a la que corresponde un registro previamente anonimizado. Tal vez desanonimizar (es decir, revertir o deshacer el proceso de anonimización) cabría mejor.

    Sobre lo del 87%, veo que conoces la literatura al respecto. Si te intrigan los valores correspondientes a España, te recomiendo que leas esto. Aunque tómatelo cum grano salis porque el autor… ¡qué te voy a decir de él!

    Finalmente, en serio, ¿se te ocurre alguna situación en la que conocer el número de mallorquines que cogieron el bús durante el periodo en cuestión puede servir para desanonimizar registro alguno? ¿Con qué tipo de información crees tú que podría cruzarse esa información para tal fin (por muy prohibido que lo sepamos)? Seamos serios.

  3. Daniel 15 Septiembre, 2016 13:49

    why the re prefix: http://itlaw.wikia.com/wiki/Data_re-identification

    Si el bus sube 50 céntimos y el número de los que cogen el bus decrece en gran medida durante el mes de julio, una empresa puede estimar que dicho colectivo no tiene capacidad de compra para productos dirigidos a la clase media y por tanto no invertir en productos de lujo. Aunque no se pueda identificar a un usuario en particular los grupos reducidos son especialmente sensibles y están más expuestos. En un grupo grande no hay el mismo problema porque aunque sean una pequeña proporción sigue siendo un número grande de usuarios que pueden comprar nuestro productos.

    Un 10% de posibles clientes en una gran población => invertir, un 10% de clientes en una pequeña población => no invertir. Esto es solo una idea puede haber muchas más cosas que se pueden hacer con la información sobre pequeñas poblaciones.

  4. Daniel2 15 Septiembre, 2016 15:04

    Daniel, creo que tu razonamiento roza lo paranoico.

    Aún en el hipotético caso de que solo hubiese subido un pasajero, es ridículo pensar que estamos vulnerando sus derechos.

  5. Emilio 17 Septiembre, 2016 23:59

    Desde la ignorancia, creo que el secreto estadístico se debe a que son pocas las unidades informantes (empresas que realizan dichos servicios en esos territorios).

    Por ejemplo, en el caso de que haya dos empresas que facilitan los datos, si publicas la cifra total, estás dando información sobre la actividad de la empresa a la competencia. Y esto perjudica a la unidad informante (la empresa), que la próxima vez que le pidan los datos a saber lo que responderá.

    En la metodología de Estadística de Transporte de Viajeros dice:

    por autobús: la información se obtiene a partir de una encuesta a las empresas de transporte urbano, interurbano, especial y discrecional. La información es exhaustiva para el transporte urbano y por muestreo para el interurbano, especial y discrecional. En estos tres tipos de transporte se realiza un muestro aleatorio estratificado. Las variables de estratificación utilizadas para la encuesta son: comunidad autónoma, número de asalariados y actividad económica principal de la empresa (las clases 49.31 y 49.39 de la CNAE-09). Las empresas con 200 o más asalariados contituyen la parte censal y también pertenecen a este estrato empresas con menos asalariados pero importantes en volumen de viajeros para los distintos tipos de transporte. El tamaño muestral es de unas 1460 empresas. El marco poblacional es el Directorio Central de Empresas para las clases 49.31 y 49.39 de la CNAE-09. Para evitar el cansancio de las empresas se realiza una rotación anual de la parte muestral de un 25% de la muestra.

  6. Carlos J. Gil Bellosta 18 Septiembre, 2016 1:24

    Vale, bien, el secreto estadístico (acabo de comprobarlo) también se aplica a personas jurídicas (aunque con unas restricciones algo menores que a las físicas).

    En La Rioja, por centrar ideas, supongo que el grueso del transporte urbano en autobús corresponde a Logroño. Cuya empresa de transporte es de titularidad municipal y, de hecho, publica esos datos:

    http://www.europapress.es/la-rioja/noticia-transporte-urbano-logrono-registro-2015-casi-10-millones-viajeros-20160208121723.html

    Por lo que, de rebote, igual podríamo saber cuántos viajeros transporta el de Calahorra:

    http://www.lanoticia.es/servicios/utilidades/autobusurbano.htm

    O de Arnedo:

    http://www.arnedo.com/areas/directorio/transportes/autobus_urbano.html

    O de Haro:

    http://www.haro.org/application/assets/public/pdfs/autobus.pdf

    Sigo sin estar convencido de que es un exceso de celo y que seguro que a esas empresas, si se les pregunta, les da igual que se publique o no (agregadamente, además) el volumen anual de pasajeros. O que estén, incluso, obligadas a hacerlo por los ayuntamientos de los que reciben la concesión.

    En fin.

Los comentarios están desabilitados.