Reducción de la dimensionalidad con t-SNE

Voy a explicar aquí lo que he aprendido recientemente sobre t-SNE, una técnica para reducir la dimensionalidad de conjuntos de datos. Es una alternativa moderna a MDS o PCA.

Partimos de puntos x_1, \dots, x_n y buscamos otros y_1, \dots, y_n en un espacio de menor dimensión. Para ello construiremos primero n distribuciones de probabilidad, p_i sobre los enteros 1, \dots, n de forma que

p_i(j) \propto d_x(x_i, x_j),

donde d_x es una determinada distancia entre puntos en el espacio original. De la misma manera, construimos sendas distribuciones de probabilidad, q_i,

q_i(j) \propto d_y(y_i, y_j),

donde d_y es otra distancia entre puntos en el espacio de dimensión inferior.

Lo ideal sería encontrar puntos y_1, \dots, y_n tales que cada p_i sea lo más parecida posible a la correspondiente $latx q_i$. Por ejemplo, de entre todas las opciones posibles, de manera que la suma de las divergencias de Kullback-Leibler entre las parejas de distribuciones sea lo menor posible.

Minimícese esa suma, i.e., encuéntrense los puntos y_1, \dots, y_n que la minimizan, y ya.

Más:

Nota curiosa: creo que he usado el adjetivo distributivo sendas por primera vez en la vida.

Fe de errores: donde arriba escribí distancia debí haber escrito similitud. Una similitud es una función decreciente de la distancia. Obviamente, se busca una similitud estrictamente positiva (como por la que optaron los creadores del algoritmo).

Nota para matemáticos: aparte del problema de que el mínimo pueda ser local y no global, es obvio que si las similitudes están basadas en distancias euclídeas (como es el caso en la implementación de los autores) la solución no es única: dada una solución, lo serán también traslaciones y rotaciones suyas.

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">