Componentes principales para quienes cursaron álgebra de primero con aprovechamiento

Quienes cursaron su álgebra de primero con aprovechamiento —los que no, pueden ponerse al día en 3:47 minutos— aprendieron que una matriz X puede descomponerse de la forma

\mathbf{X} = \mathbf{UDV}

donde \mathbf{U} y \mathbf{V} son matrices ortonormales y \mathbf{D} es diagonal. Si los elementos de la diagonal de \mathbf{D} son d_1>d_2>\dots y los últimos son pequeños, entonces

\mathbf{X} \approx \mathbf{UD_0V}

donde \mathbf{D_0} es la matriz en la que se han sustituido los d_i despreciables por ceros. Si \mathbf{D_0} tiene m elementos diagonales no nulos, solo hay m columnas de \mathbf{U} y m filas de \mathbf{V} que juegan un papel efectivo en la proximación anterior. Por lo tanto se puede reescribir de la forma

\mathbf{X} \approx \mathbf{\tilde{U}\tilde{D}\tilde{V}}

donde a las matrices tildadas se les han eliminado las filas y columnas no operativas. En particular, \mathbf{\tilde{U}} tiene m columnas.

Si se escribe ahora

\mathbf{X}\mathbf{V}^T \approx \mathbf{\tilde{U}\tilde{D}\tilde{V}}\mathbf{\tilde{V}}^T = \mathbf{\tilde{U}\tilde{D}}

se tiene todo lo que hay que saber sobre las componentes principales:

  1. que una combinación lineal de las columnas de \mathbf{X} (a los coeficientes los llaman loadings por ahí)
  2. genera unas nuevas variables \mathbf{\tilde{U}\tilde{D}} (scores)
  3. que además son ortogonales por construcción
  4. pero en menor número que las originales (reducción de la dimensionalidad) y que de alguna manera,
  5. recogen la mayor parte de lo que es necesario saber sobre \mathbf{X}.

¿A qué viene este comentario tan, quizás, extemporáneo? A que el otro día estaba hablando con un físico (que, además, sí, superó su álgebra de primero con aprovechamiento) que no conocía eso del PCA. Así que fuimos a su libro y encontramos en el capítulo en cuestión un vasto cementario de árboles malgastados para que sobre sus cadáveres, con tinta, se imprimiesen circunloquios prolijos sobre problemas variacionales que vienen poco al caso y algoritmos de segunda división para resolverlos. Pero poco de lo que podía ponerlo a trabajar en cinco minutos.

Señores, al grano. No podemos leer tanta página, tanta formulita y tanto algoritmo de cinco pasos en que el quinto reenvía de nuevo al segundo. Ya pagamos a otros para que se ocupen de esas irrelevancias. Nosotros usamos PCA porque tenemos tajo.