k-vecinos + lmer

El de los k-vecinos es uno de mis métodos favoritos de modelización. Al menos, teóricamente: luego, en la práctica, es complicado construir una función de distancias decente. Pero tiene la ventaja indiscutible de ser tremendamente local: las predicciones para una observación concreta dependen únicamente de su entorno.

lme4::lmer (y sus derivados) es ya casi la lente a través de la que imagino cómo operan las variables dentro de un modelo. Desafortunadamente, es un modelo global y no gestiona particularmente bien las interacciones, cuando son muchas y complejas.

Un modelo que estoy desarrollando aúna ambos mundos:

  • k-vecinos, con un k generoso, para crear un subconjunto local de datos.
  • lmer para construir un modelo sobre dichos datos únicamente.

Hay muchas variables y condicionantes que sopesar en el enfoque, pero tiene buena pinta y me está dando buenos resultados.

La gente usa lmer entre otras cosas para describir globalmente los datos. A mí no me interesa el análisis global, aunque sí el del entorno del dato que quiero predecir. Sí, es un proyecto en el que no se predice con churrera, sino con mimo, caso a caso, y con lupa: hay mucha pasta en juego en cada decisión basada ya no en la predicción en sí misma, sino en la distribución de esperada de las respuestas… y hasta ahí puedo escribir.

Un comentario sobre “k-vecinos + lmer

  1. Emilio 19 marzo, 2020 11:48

    Cuando se tienen datos abundantes, creo que éste es un enfoque muy adecuado. El problema es el tiempo en general todos los modelos (uno para cada grupo).

    Dos dudas que me surgen con esta aproximación:
    – Si en el fondo este método en realidad es una adaptación de los árboles de decisión y métodos similares.
    – A nivel local, la función de similitud no tiene que ser la misma para definir todos los grupos. En un grupo de personas la variable más relevante puede ser una variable (por ejemplo, la edad y el sexo) mientras que para otro grupo es más importante fijarse en otras variables (por ejemplo, nivel de ingresos económicos y lugar de residencia).

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.