Una feliz conjunción estadístico-algebraica (y II)

Abandonamos el otro día nuestra discusión sobre la feliz conjunción estadístico-algebraica que subyace a esa técnica conocida como análisis de correspondencias en el punto en que habíamos descompuesto la matriz B de la forma B = PDQ^\prime, donde P y Q son matrices cuyas columnas son vectores ortonormales p_i y q_j y D es una matriz diagonal (aunque no necesariamente cuadrada) cuyos elementos de la diagonal (en orden decreciente) son \lambda_k.

Entonces, la matriz B puede descomponerse como una suma de matrices de estructura más simple de la forma B = PDQ^\prime = \sum_i \lambda_i p_i q^\prime_i.

En el caso que estudiábamos el otro día, podemos hacer

b.i <- function( i ) svd.b$d[i] * outer( svd.b$u[,i], svd.b$v[,i] )
b.i( 1 ) # primer sumando
b.i( 2 ) # segundo sumando
 
b – ( b.i( 1 ) + b.i( 2 ) ) # la aproximación es razonable con la suma de dos componentes

Cabe esperar que los valores más grandes de la matriz B (es decir, las desviaciones mayores con respecto a la tabla esperada en situaciones de independencia) tengan que ver con los valores más grandes (en términos absolutos) de p_1 y q_1. En efecto, en nuestro caso, el valor más grande de B (dark/dark) es 18.53 y coincide con el cruce de la componente más alta de p_1, 0.78, y la de q_1, 0.67.

Nótese, además, cómo las componentes de p_1 y q_1 son (casi, casi) crecientes. De ahí que \lambda_1 p_1 q^\prime_1 recoja la estructura diagonal de la tabla y el hecho de que quienes tienen el pelo más oscuro tienden a tener, también, los ojos más oscuros.

Si el otro día descompusimos el valor del estadístico \chi^2 como la suma de los valores \lambda_i^2, ahora podemos advertir cómo \lambda_1^2 representa el 87 % del mismo y, por lo tanto, deducir que gran parte de la falta de independencia en la tabla se debe al efecto previamente identificado. Si tal efecto no existiese, entonces

pchisq( sum( svd.b$d[-1]^2 ), (nrow( b ) -1 ) * (ncol( b ) -1 ), lower.tail = F )
# 2.248518e-29

indica que la falta de independencia todavía sería significativa. Pero si no existiesen ninguno de los dos principales efectos, se tendría

pchisq( sum( svd.b$d[-(1:2)]^2 ), (nrow( b ) -1 ) * (ncol( b ) -1 ), lower.tail = F )
# 0.9692099

y no podría descartarse la hipótesis de independencia.

Es habitual realizar una representación gráfica de los principales efectos, típicamente los dos primeros. Por ejemplo, el comando biplot(corresp(a, nf = 2)) produce

Este gráfico, de alguna manera, representa los vectores p_1, p_2, q_1 y q_2. Y digo de alguna manera porque aplica cierta normalización sobre los mismos. Admito que siempre me ha sorprendido que puedan representarse churras y merinas (filas y columnas, quiero decir) sobre los mismos ejes de una manera que tenga sentido. Y el sentido es el siguiente: en la matriz B habrá una entrada para la combinación black/blue (ojos azules, pelo negro). Como los valores de dichos puntos en el eje X son opuestos (y relativamente grandes), la contribución de la primera componente de la descomposición en dicha entrada, el producto de las dos coordenadas, será grande (en valor absoluto) y negativo: ¡ojos claros deberían corresponderse con pelo claro! En la segunda componente (eje Y), ambas variables tienen valores positivos aunque de valor sustancialmente menor. El producto de ambas coordenadas corrige el valor inicial.

De hecho, examinando las coordenadas Y (correspondientes a la segunda componente) podemos comprender mejor qué fenómeno recoge la segunda componente: una cierta sobreabundancia de personas con ojos claros y pelo oscuro y viceversa. Y a la vez, una proporción mayor de medium/medium de la que se deduciría únicamente de la primera componente.

Los interesados en abundar más sobre el el asunto y aprender técnicas adicionales de representación gráfica de este tipo de datos pueden echarle un vistazo al artículo Simple and Canonical Correspondence Analysis Using the R Packageanacor de J. de Leeuw y P. Mair.

Un comentario sobre “Una feliz conjunción estadístico-algebraica (y II)

  1. rvaquerizo 16 agosto, 2011 12:51

    ¿Cómo es posible que le des tantas vueltas a los modelos mientras nos adviertes del principal error al que nos lleva la varianza y despotriques contra los algoritmos?

    Debe ser que ando muy liado pero no te pillo.

Los comentarios están desabilitados.