Multidimensionalidad

UMAP, tSNE y todas esas cosas

Estaba repasando cosas sobre reducción de la dimensionalidad y, en concreto, UMAP y tSNE. Me ha parecido conveniente replantear las cosas sobre primeros principios para que todo se entienda mejor. El problema es el siguiente: Tenemos $K$ puntos $x_i$ en un espacio de dimensión $N$. Buscamos su correspondencia con otros $K$ puntos $y_i$ en un espacio de dimensión $n « N$. De manera que las configuraciones de los $x_i$ y los $y_i$ sean similares en el sentido de que la matriz de distancias $(d(x_i,x_j))$ sea parecida a la $(d(y_i, y_j))$.

No es tanto sobre la media como sobre la maldición de la multidimensionalidad

El artículo que motiva esta entrada, When U.S. air force discovered the flaw of averages, no lo es tanto sobre la media como sobre la maldición de la multidimensionalidad. Podría pensarse que es una crítica a la teoría del hombre medio de Quetelet en tanto que niega la existencia de ese sujeto ideal. Pero lo que dice es una cosa sutilmente distinta: Using the size data he had gathered from 4,063 pilots, Daniels calculated the average of the 10 physical dimensions believed to be most relevant for design, including height, chest circumference and sleeve length.

Relevante para entender la "maldición de la dimensionalidad"

La gráfica representa el volumen de la esfera unidad (eje vertical) en el espacio de dimensión x (eje horizontal). Más aquí (de donde procede la gráfica anterior). Moraleja: en dimensiones altas, hay pocos puntos alrededor de uno concreto; o, dicho de otra manera, los puntos están muy alejados entre sí. Por lo que k-vecinos y otros…

Las altas dimensiones son campo minado para la intuición

Las dimensiones altas son un campo minado para la intuición. Hace poco (y he perdido la referencia) leí a un matemático que trabajaba en problemas en dimensiones altas decir que le gustaba representar y pensar en las bolas (regiones del espacio a distancia <1 de 0) en esos espacios usando figuras cóncavas, como las que aparecen a la izquierda de precisamente porque una de las propiedades más fructíferas de las bolas en altas dimensiones es que apenas tienen interior.

A épsilon de todo

Usé a principios del verano una metáfora matemática como justificación de los contenidos de un curso que dicté pero que se puede extender al conocimiento en general. Más bien, a una estrategia para adquirirlos. La estrategia de estar a un ? de todo. La metáfora está basada en el siguiente hecho: en dimensiones altas, casi toda la esfera unidad está a distancia ? de su corteza. En efecto, el volumen de una esfera de radio unitario en dimensión $latex d$ es $latex K_d$ y la de una esfera de radio $latex 1-\epsilon$ es $latex K_d (1-\epsilon)^d$.

Reducción de la dimensionalidad con t-SNE

Voy a explicar aquí lo que he aprendido recientemente sobre t-SNE, una técnica para reducir la dimensionalidad de conjuntos de datos. Es una alternativa moderna a MDS o PCA. Partimos de puntos $latex x_1, \dots, x_n$ y buscamos otros $latex y_1, \dots, y_n$ en un espacio de menor dimensión. Para ello construiremos primero $latex n$ distribuciones de probabilidad, $latex p_i$ sobre los enteros $latex 1, \dots, n$ de forma que

Vídeo de mi charla en el Taller InnovaData de periodismo de datos

Ayer, tal y como anuncié el otro día, participé en el Taller InnovaData de periodismo de datos. El vídeo de mi intervención (a partir del minuto 2:02:00 aproximadamente) puede verse en Las diapositivas de la charla (que en el vídeo, desgraciadamente, son, por así decirlo, tanto asíncronas) pueden descargarse aquí.