Carlos J. Gil Bellosta

En 2012 mencioné de pasada ese artículo de Breiman al que hace referencia el título. Estaba bien, tenía su gracia.

leo_breiman

Lo he visto utilizar recientemente como punto de partida en discusiones sobre lo distinto o no que puedan ser la ciencia de datos y la estadística. Y espero que, efectivamente, se haya usado como punto de partida y no como otra cosa porque el artículo tiene 15 años (cerrad los ojos y pensad dónde estabais en 2001 y cómo era el mundo entonces).

Esta entrada extiende y mejora una homónima de 2014.

El problema de entonces consistía en calcular por separado y en paralelo objetos A, B y C para combinarlos después. Cuando, por supuesto, el cálculo de A, B y C es pesado.

El muy reciente paquete future incorpora a R un mecanismo disponible en otros lenguajes de programación: un cierto tipo de datos, los futuros, que contienen promesas de valores que se calculan fuera del hilo principal del programa. Se usan, por ejemplo, para realizar llamadas a APIs, operaciones de IO o (y esto es más pertinente para usuarios de R) cálculos que llevan su tiempico.

Me mandan un whatsapp. Es de alguien que está en una charla de ciencia de datos. Acaba de oír decir al ponente que en una de esas competiciones de Kaggle le ha servido optimizar a lo largo del conjunto de semillas aleatorias. Sí, del set.seed().

homeopatia_funciona

Supongo que al ponente le funcionaría.

El éxito de la ciencia de datos parece tener aparejada una plaga de homeopatía de datos. Algo habrá que hacer. Por lo pronto, emplear el escepticismo para algo más que para asestar grandes lanzadas a moros muertos.

Frecuentemente nos interesan unos efectos (E), tales como:

Si un sujeto cumplirá con los términos de una hipoteca.
Si un paciente responderá a un tratamiento.
Si un adlátere circunstancial en el tren nos regalará una conversación amena.
Si un transeúnte podrá o no darnos fuego para prender un cigarro.
Si un individuo es o no un criminal.
Si un candidato será o no un trabajador productivo en una empresa.
Etc.

Son variables aleatorias. En ciertos casos, si no todos, se puede suponer que estos efectos dependen de determinados factores lantentes (L). Y se puede crear una red bayesiana similar a esta:

Acabo de terminar el primero de los tres cursos sobre modelos gráficos probabilísticos de Coursera.

El curso sigue una sinuosa senda a través del libro (¡1200 páginas!) Probabilistic Graphical Models de D. Koller y N. Friedman. Aunque cueste un potosí, es posible hojearlo gratis para ver si vale la pena o no comprarlo gracias a nuestros amigos de LibGen.

probabilistic_graphical_models

Tiene mucho de bueno. Lo mejor, sin duda alguna, el universo de problemas que plantea y a los que se aplican los modelos gráficos. No son el sota, caballo y rey de los manuales de métodos de clasificación, regresión, etc. Las correlaciones entre variables se explicitan y se modelan usando criterios (p.e., de expertos humanos), en lugar de fiarlo todo al descenso de un gradiente.

Leo a Tyler Cower escribir cómo los republicanos [de EE.UU.] han caído en el lado malo de la lógica de la teoría de juegos dos veces.

Y me pregunto: ¿cuántas veces ha caído el PSOE en el lado malo de la lógica de la teoría de juegos?

Diría que unas cuantas. Pero no sé de la materia, por lo que, si abro la boca, pueden cerrármela a gorrazos. No obstante, quienes saben de la materia, o no han escrito al respecto y con esa perspectiva o lo han hecho y no me he enterado. Una pena.

Tramontando el recetariado, llegamos a los principios. Y el más útil de todos ellos es el de la información (o cantidad de información).

(Sí, de un tiempo a esta parte busco la palabra información por doquier y presto mucha atención a los párrafos que la encierran; anoche, por ejemplo, encontré un capitulito titulado The Value of Perfect Information que vale más que todo Schubert; claro, que Schubert todavía cumple la función de proporcionar seudoplacer intelectual a mentes blandas y refractarias al concepto del valor de la información perfecta).

En algunas de las últimas charlas (de ML) a las que he asistido se han enumerado recetas con las que tratar de resolver distintos problemas. Pero no han explicado cuándo ni por qué es conveniente aplicarlas. Incluso cuando se han presentado dos y hasta tres recetas para el mismo problema.

receta

Me consta que parte de la audiencia quedó desconcertada y falta de algo más. ¿Tal vez una receta para aplicar recetas? ¿De una metarreceta?

Del rumano de la fragoneta hablé en una charla del 2013 que fue después glosada por Daniel Mediavilla en un par de medios.

rumano_fragoneta

Y, ¿sabéis qué? ¡Se ha ido a vivir a Illinois!

Leo hoy que

La probabilidad de que gane Trump es del ~13%. Más o menos la probabilidad de que Cristiano Ronaldo falle un penalti.
— Kiko Llaneras (@kikollan) October 16, 2016

Pero:

Hemos visto a Cristiano Ronaldo chutar muchos penaltis y hemos podido calcular el cociente entre los anotados y los tirados.
Es la primera vez en la vida que Trump se presenta a las elecciones de EE.UU.

¿A nadie le intriga cuál es ese misterioso mecanismo por el que se pueden comparar ambas probabilidades? [Voy a usar ontológicamente] ¿Nadie las ve ontológicamente distintas?

Las dos culturas, con comentarios de 2016

R en paralelo (pero ahora, con futuros)

Homeopatía de datos

Decisiones bajo incertidumbre (I)

Modelos gráficos probabilísticos en Coursera

¿Cuántas veces ha caído el PSOE en el lado malo de la lógica de la teoría de juegos?

El principio de información

Recetas y principios

¿Os acordáis del rumano de la "fragoneta"? Pues se ha mudado a Chicago

Probabilidades y probabilidades