¿Qué modelas cuando modelas?

Ahora que estoy trabajando en el capítulo dedicado a la modelización (clásica, frecuentista) de mi libro, me veo obligado no ya a resolver sino encontrar una vía razonable entre las tres —¿hay más?— posibles respuestas a esa pregunta.

La primera es yo modelo un proceso (o fenómeno), los datos llegan luego. Yo pienso que una variable de interés Y depende de X_i a través de una relación del tipo

Y \; | \; X_i \; \sim \; N(f(X_i, \sigma)

y a partir de ahí sigue la cosa: obtener datos, de acuerdo con mis especificaciones, etc. En particular, si los datos son mutuamente independientes, la función de verosimilitud tendrá una forma más simple que si no. Pero esa es, para esta aproximación al problema, otra historia.

Lo importante de esta aproximación es que pone en el centro el fenómeno, a la naturaleza, y es agnóstica frente a los mecanismos de estimación, la manera en que se recogen los datos, etc.

La segunda es yo modelo el proceso de obtención de datos. Digámoslo así: el fenómeno es necesario, el proceso de obtención de datos es contingente. Pero mi modelo atiende ambos aspectos simultáneamente. Ahora, por ejemplo, queremos estudiar cierto fenómeno, pero cada sujeto experimental se mide varias veces; entonces tendría que modificar la formulación anterior y modelar explicítamente la correlación existente entre las medidas realizadas sobre el mismo sujeto (sí, los llamados modelos de medidas repetidas). Es decir, tenemos que introducir en el modelo modificaciones para cancelar los aspectos contingentes del proceso de medida y quedarnos con una buena estimación de los necesarios. De todos modos, la forma en sí del modelo en esta segunda aproximación es distinta de la de más arriba y las herramientas de ajuste, también.

Merece la pena discutir si las dos respuestas anteriores son la misma cosa o no. Al fin y al cabo, en la primera, el error irreductible pretende absorber, entre otros, los errores de medida, los errores cometidos en el proceso de medición. En la segunda aproximación se distinguen unos de otros y algunos se modelan explícitamente. Pero al hacerlo, ya no se está modelando estrictamente el fenómeno. Un ejemplo: unos físicos están interesados en medir la relación entre presión y temperatura en un sistema; para ello diseñan un experimento en el que someten al sistema a distintas presiones y miden las correspondientes temperaturas. Esperan obtener un resultado de la forma

t = k p \pm \epsilon

que es la que esperan escribir en el tomo sexto de su definitiva Introducción a la Termodinámica. Por eso están situados en el contexto de la primera respuesta al problema.

Sin embargo, si realizan medidas repetidas (frente a algún tipo de factor, como por ejemplo, el operario que realiza las mediciones), el modelo que tienen que ajustar sería algo así como

t ~ p + (1 | operario)

donde el factor experimental del operario está aún presente y es necesario realizar una transformación adicional para transformar (simplificar) esa última fórmula en la publicable para la posteridad.

La tercera es yo modelo unos datos que m’an enviao. No tengo ni idea de cómo se han recogido, no tengo ninguna hipótesis respecto a su forma, nada, cero, zilch. Así empieza, por ejemplo, el famoso artículo de Breiman, The Two Cultures:

Pero utilizas una especie de llave inglesa que agarra cualquier tipo de tuerca, planteas una función de error más o menos razonable, y p’alante.

Tengo la desasosegadora sensación de que es la tercera vía la que se impone, la que se espera, la que se busca y la que se paga. En el fondo, es más simple. En el libro, sin embargo, todavía hay una tensión no resuelta entre la primera y la segunda aproximación que aún no tengo claro cómo zanjar.

6 comentarios sobre “¿Qué modelas cuando modelas?

  1. Jose Luis Cañadas Reche 26 enero, 2021 20:23

    Aunque entiendo la disyuntiva entre la primera y la segunda,¿ no será mejor modelar el efecto «aleatorio» si tengo info para eso? Vale que no es el fenómeno puro, pero si no lo tengo en cuenta y lo dejo dentro del error en el caso 1, ¿no estoy desaprovechando información?. En fin, ¿has colgado ya ese capítulo?

  2. Dan Torrido 26 enero, 2021 20:42

    Quizás la tercera vía sirve para establecer un marco base para estudiar los demás modelos que hacen uso de información contextual. La tercera vía parece ser similar al aprendizaje no supervisado mientras que las otras dos vías utilizarían conocimientos del sujeto para introducir más información en el sistema. Luego 3) para establecer una baseline con la que comparar las posibles mejoras que hacen uso del conocimiento del sujeto, que este conocimiento aporte información dependerá de si el nuevo modelo se comporta mejor con nuevos datos. Saludos.

  3. Carlos J. Gil Bellosta 27 enero, 2021 3:56

    La cosa va más allá. En el fondo, nos interesa el fenómeno en sí, no cómo se ha estimado o calculado. Si acaso, la manera de conciliar ambas posturas es: con técnicas estadísticas que tienen en cuenta y que cancelan el efecto de cómo se ha realizado la medición tengo mejores estimaciones sobre el fenómeno mismo que pretendo modelar. Pero en cualquier caso, en algún punto hay que sacudir las adherencias del cómo —del cómo se han realizado las medidas— con que viene el qué —o el fenómeno en sí—.

  4. Spike 31 enero, 2021 21:10

    Todo el mundo apende la tercera via, por todo lo disponible en el Repo UCI, Kaggle, Google Datasets y todo lo similar. Los casos 1 y 2 que has descrito se dan con mayor frecuencia en investigación (médica, agricola, de mercados, etc.) Lo que falta es esa capacidad de diseño. De hecho, te propongo escribir una Guia de cómo se diseña un pyoyecto desde el inicio.

  5. Luis 31 enero, 2021 21:14

    Quizá te sirva algo de esto, Carlos. Muy interesantes los planteamientos de cómo se hace investigación. A mí concretamente me ha pasado muchas veces estar resolviendo un problema con información de una empresa y que de repente, acabo descubriendo algo que no estaba contemplado en los objetivos de mi proyecto. ¿Sería este otro caso adicional a los que planteas? Un saludo.

Comenta

Your email address will not be published.

Puedes usar estas etiquetas y atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.