Distancias (IV): la solución rápida y sucia

Prometí (d)escribir una solución rápida y sucia para la construcción de distancias cuando fallan las prêt à porter (euclídeas, Gower, etc.).

Está basada en la muy socorrida y casi siempre falsa hipótesis de independencia entre las distintas variables x_1, \dots, x_n y tiene la forma

d(\bold{x}_a, \bold{x}_b) = \sum_i \alpha_i d_i(x_{ia}, x_{ib})

donde los valores \alpha_i son unos pesos que me invento (¡eh!, euclides también se inventó que \alpha_i = 1 y nadie le frunció el ceño tanto como a mí tú ahora) tratando de que ponderen la importancia relativa que tiene la variable i en el fenómeno que me interesa.

Luego, las d_i son cosas totalmente ad hoc según lo que represente la variable i: puede que tome logaritmos y que añada algún valor máximo antes de restar los valores; puede que sea una distancia 0-1; puede que dependa de si los códigos postales, de serlo, correspondan o no a la misma provincia; puede que la distancia sea cero si coinciden, 1 si son de la misma provincia y 2 si no lo son; puede que me base en el número de meses de diferencia, etc. Lo importante es la dimensión artesanal del proceso, del cariño que se le profese y del tiempo disponible.

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.