Anomalías, cantidad de información e «isolation forests»

Identificar a un tipo raro es sencillo: el que lleva tatuada a su madre en la frente. Identificar a un tipo normal es más complicado: altura… normal, pelo… ¿moreno? Es… como… normal, ni gordo ni flaco…

Identificar transacciones de tarjeta normales es prolijo: gasta más o menos como todos en supermercados, un poco más que la media en restaurantes, no tiene transacciones de gasolineras… Identificar transacciones fraudulentas es (o puede ser) sencillo: gasta miles de euros en las farmacias de los aeropuertos y nada en otros sitios.

Esta idea tiene que ver con nociones como la del minimum description length y la de la cantidad de información (que fue un tema recurrente en este blog hace casi 10 años). Y es la que explotan los isolation forests: son anómalas aquellas observaciones que podemos separar fácilmente del resto.

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.