La variable X

Supongamos, no obstante, que se pude desarrollar un algoritmo bancario con un 99 por ciento de precisión. Supongamos que en el Reino Unido hay 500 terroristas. El algoritmo identificaría correctamente a 495 de ellos, el 99 por ciento. Pero en el Reino Unido hay aproximadamente 50 millones de adultos que no tienen nada que ver con el terrorismo, y el algoritmo también identificaría erróneamente al 1 por ciento de todos ellos, es decir, 500.000 personas. Al final de las cuentas, este maravilloso algoritmo con un 99 por ciento de precisión daría demasiados falsos positivos: medio millón de personas que se indignarían con razón cuando fueran detenidas por las autoridades por sospechosas de terrorismo.

Este es uno de los primeros párrafos de un capítulo del libro ya comentado en esta tribuna (SuperFreakonomics) en el que trata de un algoritmo de minería de datos para determinar qué personas pueden ser terroristas. El pequeño relato se centra en una figura anónima «Mr Horsley» autor de este algoritmo que después de  los atentados de Londres (7 julio del 2005) creó este algoritmo y determinó posibles terroristas.

Algunas de sus claves fueron éstas:

Dado que en el Reino Unido estaba luchando contra fundamentalistas islámicos y ya no, por ejemplo, contra independentistas irlandeses, los sospechosos detenidos tenían invariablemente  nombres  musulmanes. Este iba a ser uno de los marcadores demográficos más  importantes para el algoritmo. Una persona sin nombre ni apellido musulmán tenía solo una probabilidad entre 500.000 de ser sospechosa de terrorismo. Para una persona con nombre o apellido musulmán, la probabilidad era una entre 30.000. Pero si tanto el nombre como el apellido eran musulmanes, la probabilidad subía a una entre 2.000.

Los posibles terroristas eran predominantemente hombres, generalmente entre veintiséis y treinta y cinco años de edad. Además, tenían una probabilidad desproporcionada de:

  • Poseer un teléfono móvil.
  • Ser estudiante.
  • Vivir de alquiler y no en una casa propia.

También había algunos indicadores negativos destacados. Los datos demostraban que un posible terrorista tenía poquísimas probabilidades de:

  • Tener una cuenta de ahorros.
  • Retirar dinero de un cajero automático un viernes por la tarde.
  • Contratar un seguro de vida.

Todos estos parámetros, una vez combinados, contribuyeron mucho a crear un algoritmo que pudiera destilar toda la base de datos de clientes de un banco hasta dejar un grupo relativamente pequeño de terroristas en potencia.

Era una red apretada, pero todavía no lo suficiente. Lo que por fin logró que resultara efectiva fue un último parámetro que perfeccionó espectacularmente el algoritmo.  En interés de la seguridad nacional, se nos ha pedido que no revelemos los detalles. Lo llamaremos Variable X.

¡Bendita Variable X!.