Un muy cuestionable análisis de lo de PISA

Voy a realizar un más que cuestionable (debajo desgranaré los caveats) de los resultados de las pruebas PISA del 2015 en España.

Primero, datos y métodos. Los primeros (y las descripciones de las variables) se pueden bajar de aquí. En cuanto a los segundos, he consultado esto (que me ha llevado a), esto y esto (donde está actualizado para los resultados de la última oleada). Hablaré más de métodos, y sus problemas, más abajo.

Monkey reading to three cats

Antes de entrar en materia, una observación. Lo de PISA es muy serio, pero quien pierda rato haciendo el debido análisis cualitativo de los datos, observará cosas raras. Por ejemplo, un colegio con un ratio de alumnos por profesor de 1 (¿cuál? ¿dónde? ¿por qué?). Y otras cosas que hacen que se frunzan los ceños. Pero no abundaré en esos asuntos.

Cargo datos en R (después de bajarlos del preceptivo enlace, descomprimirlos, etc.; cuidado: el fichero ocupa un giga largo):

Aquitán:

También se puede ver que hay unos doscientos colegios y si uno se baja el fichero correspondiente, puede explorar lo que contaba antes y más. Pero hoy no toca.

Selecciono las colunnas de interés y relleno (¡primer caveat!) los nulos (no muchos) con la mediana:

Las columnas de interés son:

  • WEALTH: platica del hogar
  • CULTPOSS: posesiones culturales
  • HEDRES: recursos educacionales del hogar
  • HOMEPOS: posesiones del hogar (¿en qué se diferencia de WEALTH?)
  • ICTRES: tabletas, móviles, ordenadores y otros aparatejos
  • ESCS: índice de nivel económico, social y cultural

Estas columnas parecen construirse sintéticamente a partir de las respuestas (que también aparecen en el fichero) a una encuesta concomitante. Muchas de estas columnas están muy correlacionadas entre sí, tanto como yo con alguien que no sé si me leerá:

Voy a centrarme en las resultados de matemáticas porque yo lo valgo:

El gráfico resultante es desconcertante:

Fundamentalmente, porque aunque los valores están en línea con los publicados en la prensa (p.e., aquí) no coinciden con ellos cabalmente. O el resultado por alumno se calcula de otra manera, o el promedio por región tiene ajustes adicionales (seguro que sí: de ahí el paquete intsvy) que no contemplo, o existe algún tipo de factor de elevación que he omitido. Lo segundo que más me preocupa, en todo caso y para mis fines, es haberme equivocado en la manera de calcular el promedio por alumno; lo que más de todo, arrastrar en mi posible error a mis lectores, a los que advierto que avancen con cautela.

Con la información disponible se pueden construir gráficas tales que

i.e.,

que tanto irritan a los defensores de ese tipo de educación de rectores copipaste.

Pero vamos a la chicha:

Hay una correlación insidiosa (aunque prevista) entre algunas de las variables más importantes que tiene el efecto previsto: unos efectos que se intercancelan. Pero globalmente, sí, se aprecia que más es más. Los cacharrillos electrónicos van a su aire (porque parece que se los pueden permitir todos y cualquier gañán tiene mejor móvil que yo) y ni ponen ni quitan.

Eso en cuanto a lo fijo. En cuanto a lo aleatorio,

dibuja, primero,

donde se ve cómo la diferencia entre los dos modelos educativos son más estrechos de lo que parecen sin controlar por el resto de los factores. El efecto es, cualitativamente, el que se detecta también aquí (aunque véase esto) en términos del tamaño del efecto aunque da la sensación de que en mi caso las diferencias son menos significativas estadísticamente incluso. ¿Me acabarán invitando a colaborar en eldiario.es?

Y también dibuja otra cosa mucho más, como dicen los modernos, dramática:

Se trata del efecto de la comunidad autónoma. Aparentemente, muy por encima, se parece a la gráfica anterior, pero se aprecian dos efectos singulares. El primero, que el País Vasco cae a niveles del african dummy. Y la segunda, (corred a contárselo a vuestros amigos de Podemos: veréis cómo les brilla el colmillo), que Madrid se derrumba.

Termino recordando que por el camino he dejado caer tantos avisos que no se me debe tomar en serio. Yo mismo no lo hago. Si os interesa en tema, en lugar de tuitear y retuitear esta basura, agarrad el hilo y tratad de mejorarla. A ver si se os da mejor que a mí y me quitáis la razón. No creo que sea difícil.

3 comentarios sobre “Un muy cuestionable análisis de lo de PISA

  1. Olivier 13 diciembre, 2016 10:13

    Carlos,
    unas preguntas?
    1) Porqué utilizas la variable PUBPRIV como efecto aleatorio?
    2) Los datos están agrupados por escuelas? Si es así, podría ser util utilizar la escuela como efecto aleatorio.
    Olivier

  2. Carlos J. Gil Bellosta 13 diciembre, 2016 14:25

    Tienes razón… Podía haber metido el colegio (que tengo; está en los datos). Pero me interesa el efecto de la variable público/privado… ¿mejor como efecto fijo? No sé cómo se mete en lmer ese efecto “a nivel colegio”. Lo tengo que investigar.

  3. David 16 diciembre, 2016 23:46

    Hola. Yo metería el colegio como factor aleatorio y la variable público/privado como efecto fijo:

    modelo <- lmer(target ~ WEALTH + CULTPOSS + HEDRES + HOMEPOS + ICTRES + ESCS + PUBPRIV + (1 | CCAA) + (1 |colegio), data = dat)

    Por cierto, al bajar los datos me dice que los archivos están corruptos, ¿le pasa a alguien más?

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">