Prometí (d)escribir una solución rápida y sucia para la construcción de distancias cuando fallan las prêt à porter (euclídeas, Gower, etc.).
Está basada en la muy socorrida y casi siempre falsa hipótesis de independencia entre las distintas variables y tiene la forma
donde los valores son unos pesos que me invento (¡eh!, euclides también se inventó que
y nadie le frunció el ceño tanto como a mí tú ahora) tratando de que ponderen la importancia relativa que tiene la variable
en el fenómeno que me interesa.
Luego, las son cosas totalmente ad hoc según lo que represente la variable
: puede que tome logaritmos y que añada algún valor máximo antes de restar los valores; puede que sea una distancia 0-1; puede que dependa de si los códigos postales, de serlo, correspondan o no a la misma provincia; puede que la distancia sea cero si coinciden, 1 si son de la misma provincia y 2 si no lo son; puede que me base en el número de meses de diferencia, etc. Lo importante es la dimensión artesanal del proceso, del cariño que se le profese y del tiempo disponible.