¿Cuál es la esencia de la estadística?
¿Qué tienen que ver minería de datos y estadística? Podría opinar personalmente sobre el asunto, pero serviré en esta ocasión de pregonero de las ideas que Jerome H. Friedman dejó escritas al respecto. Aunque el artículo tiene ya sus casi quince años, las ideas que contiene están todavía en plena vigencia.
Comienza el artículo Friedman con un ejercicio irónico acerca de la fiebre del oro que generó (y sigue generando muchos años después) esa disciplina que se dio en llamar minería de datos. Así, se plantea hasta qué punto se trata más de una actividad comercial que propiamente académica; y al respecto comenta cómo, al igual que en casi todas las fiebres del oro que han existido la verdadera rentabilidad está en mining the miners. En plata, sacarles la ídem a los mineros; en particular, vendiéndoles herramientas taumatúrgicas a precios aúricos.
Pero a Friedman, un físico devenido profesor de estadística en Stanford, le interesa una cuestión más fundamental: ¿cuál es la esencia, el objeto de la estadística como disciplina? Porque en tiempos, análisis de datos era estadística. Y a la inversa. Pero a Friedman —incluso desde un punto de vista gremial— le preocupa que otro tipo de profesionales ajenos a la disciplina irrumpan en lo que se consideró su ámbito exclusivo.
Eso motiva su pregunta fundamental en el artículo: ¿definen a la estadística un conjunto de herramientas (regresiones, anovas, series temporales, etc.)? ¿O lo hacen, más bien, un conjunto de problemas? ¿Deberían ser pues los estadísticos los expertos en manejar una serie de instrumentos heredados de nuestros mayores? ¿O más bien ser capaces de afrontar cierto tipo de retos del futuro?
Dependiendo de la respuesta la profesión habrá de enfrentarse ya bien a un proceso de creciente irrelevancia o a una refundación en la que cobren importancia creciente métodos, técnicas e ideas que permitan a los estadísticos del futuro encarar nuevos problemas tales como el análisis de conjuntos de datos enormes y sus concomitantes aspectos computacionales, el análisis de información desestructurada, la gestión de la interacción y comunicación efectiva con los usuarios finales de la información, etc.