NMDS y un poquito más allá

Nunca he sido muy partidario de esas técnicas a medio camino entre lo descriptivo (con descripciones que apenas nadie entiende) y lo inferencial (con inferencias que pocos se creen). Entre ellas, MDS (multidimensional scaling). Pero este fin de semana y por exigencias del guión (¿se acentúa guión aún?) he tenido que replicar unos análisis en que se usaba NMDS a la vegan.

Seré breve y me limitaré a definir el problema, enlazar una referencia con código y una discusión mejor que la mía y a mostrar una de las representaciones que uno podría llegar a construir.

Imagina que tienes una matriz de datos en la que las columnas son algo así como sujetos, especies o similar. Y las filas representan productos, lugares u otras entidades con las que las columnas interaccionan. Por ejemplo, las filas podrían ser clientes y las filas, productos. Entonces la matriz podría contener número de compras o sus importes.

Las columnas, además, están jerarquizadas, agrupadas en categorías de interés y el problema consiste en descubrir las interacciones entre sujetos y categorías.

Mediante un proceso de reducción de la dimensionalidad, NMDS proporciona una versión bidimiensional de los datos (véase esto para los detalles) y permite construir representaciones tales como

en las que se muestran las zonas definidas por las dos categorías del estudio (los polígonos) y la afinidad relativa de los distintos sujetos (etiquetas rojas) a cada uno de ellos. En este caso existe una diferencia entre las categorías puesto que los polígonos son disjuntos, etc. Además, aparentemente, hay pruebas estadísticas (p.e., ANOSIM, que no tengo ni idea de qué hace) para medir la heterogeneidad de las categorías).

Nunca se me habría ocurrido utilizar NMDS por iniciativa propia, la verdad. Antes hubiese usado otras técnicas más habituales (¿PCA?). Insisto en que tuve que utilizar todo esto por obligación. Pero parece que en ciertas áreas de conocimiento (p.e., ecología) se utilizan este tipo de técnicas y no está mal comentarlas en un foro generalista como este. Tal vez a alguien procedente de un mundo totalmente distinto le pueda resultar aprovechable.

7 comentarios sobre “NMDS y un poquito más allá

  1. Jose Luis 24 enero, 2019 12:44

    Toda la escuela Gifi methods , librería homals y smacof en R. Todas de Jan de leyes.

  2. Jose Luis 24 enero, 2019 12:45

    Jan de leuw (el corrector)

  3. Jose Ignacio 24 enero, 2019 21:23

    @Fernando, el análisis de correspondencias no tiene nada que ver con el escalamiento multidimensional. El primero utiliza chi2 para obtener una especie de matriz de varianzas-covarianzas a partir de la cual se calculan los autovalores, etc, mientras que el MDS calcula una matriz de distancias entre los objetos que se quiere representar y luego utiliza un proceso iterativo para encontrar las posiciones de dichos objetos en un espacio k dimensional de forma que se respeten las distancias originales.

  4. Jose Luis Cañadas Reche 25 enero, 2019 0:57

    Lo de no tiene nada que ver no es tan así. En correspondencias es la distancia Chi cuadrado. En realidad el objetivo es el mismo, proyectar en un subespacio de dimensión inferior con la menor pérdida de información. El método de minimizar la pérdida y como definas la información es lo que varía. En realidad, los embedding, las técnicas como pca, CA , MCA , MDS, tsne, etc manejan conceptos parecidos y lo más importante, objetivos parecidos. Para mí , lo fundamental es dada una medida de similaridad o disimilarirad (correlaciones, distancias Chi cuadrado, tfidf, distancia coseno, concurrencias, distancia de jaccard, la que te inventes ad hoc) obtener por la técnica que sea (diagonalizacion al uso, non negative Matrix factorization, redes neuronales, minimar función de stress, o lo que sea) , encontrar subespacios (vectoriales o basados en local embedding o como sea) que permitan una mayor comprensión de la estructura subyacente en los datos y muchas veces compresión.

  5. Jose Ignacio 25 enero, 2019 19:46

    Sí, por supuesto, el objetivo de ambas técnicas es el mismo…y hasta ahí llegan las similitudes. Luego cada técnica utiliza un método totalmente distinto para lograr ese objetivo. Cuando decía que «no tienen nada que ver» me refería al método, no al objetivo. Pensé que se me entendería.

  6. Jose Luis 25 enero, 2019 22:24

    Entendido, sólo quería puntualizar las similitudes.

Los comentarios están desabilitados.