Y mientras tanto... nos roban la cartera

Hablamos de ondículas.

Hablamos de datos abiertos.

Hablamos de cómo usar la semilla como hiperparámetro para mejorar una diezmilésima el RMSE.

Hablamos.

Mientras tanto, la mano es más rápida que el ojo, el ojo es más lento que la mano, ¿dónde estará la bolita?, ¿dónde estará?, porque la mano es más rápida que el ojo… Y en esas, el cuñado de fulano nos saca inadvertidamente cuarenta kilos de la cartera.

Con este viejo truco:

Así se calculan los logaritmos de Zaragoza, se ve (y una reflexión)

Estoy en Zaragoza. He bajado a la biblioteca pública que tengo delante de casa y la que le dieron el nombre de aquel chileno de las alamedas. He curioseado lo que tenían de matemáticas y de entre los menos de cien volúmenes de la cosa,

Efectivamente, el libro trataba de lo que su lomo decía: eran tablas y más tablas de logaritmos de números, con sus añejos distingos entre las mantisas y eso otro que ya no recuerdo cómo se llamaba.

EM (duro) a mano (y para humanos)

Dada una configuración de puntos tal como

puede pensarse que existen dos grupos (clústers los llaman casi todos menos el neotroll de estas páginas y algún otro purista) de puntos organizados alrededor de unas rectas que se adivinan.

Nos planteamos el problema de identificarlas y de asignar los puntos a su respectiva.

Una posible estrategia consiste en construir la verosimilitud asociada al problema y maximizarla. Esa verosimilitud dependería de muchos parámetros:

Disponibles las diapositivas de mi charla en el EL BetaBeers Madrid (especial opendata)

El anuncio de la charla es este y las diapositivas de lo que titulé ¿Son suficientes los datos abiertos? están disponibles aquí.

Como viene siendo tradicional (más que original) en mis charlas, las diapositivas consisten esencialmente en fotos. Así que son de poca utilidad sin el texto que no las acompaña. Igual saco rato la semana que entra y lo resumo por aquí.

qgraph para representar grafos que son correlaciones que son vinos

R

Me vais a permitir que escriba una entrada sin mayores pretensiones, inspirada en y adaptada de aquí y que sirva solo de que para representar correlaciones entre variables podemos recurrir a los grafos como en

library(qgraph)
wine.quality <- read.csv("https://goo.gl/0Fz1S8",
                            sep = ";")
qgraph(cor(wine.quality), shape= "circle",
        posCol = "darkgreen",
        negCol= "darkred", layout = "groups",
        vsize=13)

que pinta

mostrando resumidamente cómo se relacionan entre sí determinadas características de los vinos y cómo en última instancia influyen en su calidad (qlt).

He visto que eran de la Rey Juan Carlos y hasta ahí he podido leer

Hojeando la prensa no he podido sustraerme al discreto encanto del titular El ‘pucherazo’ del 36. El texto que encabeza habla, parece, de un libro homónimo en el que se da cuenta del presunto fraude en las elecciones generales de 1936. Los autores, según la entradilla, son [d]os historiadores, [que] tras cinco años de investigación, aportan las cifras y las pruebas del desvío de votos.

Todo bien, más o menos interesante mientras no puedo hacer otras cosas más enjundiosas, hasta que llego al párrafo, tercero, en el que me entero de que los dos autores son de la Universidad Rey Juan Carlos. Y dos cosas me han sucedido automáticamente. La primera, es que he dejado de leer con un gesto entre el asco y el disgusto, como el de que encuentra un pelo en los macarrones.

Calibración de probabilidades vía apuestas

Después de la remontada del F.C. Barcelona es muy de agradecer ver la publicación de artículos como Cómo de improbable era la remontada del Barcelona de Kiko Llaneras. En la misma entradilla, indica que [u]n modelo estadístico y las apuestas le daban el 7% de opciones. Un 7% viene a ser más o menos, dice correctamente, como sacar un 11 o un 12 en una tirada de dos dados.

La pregunta que podemos hacernos, de todos modos, es si las probabilidades estimadas por esos modelos estadísticos o las casas de apuestas están o no bien calibradas. Es decir, si, por ejemplo, el número de aciertos para eventos con una probabilidad asignada del alrededor del 0.25 es o no próximo al 25%.

Daré una charla en el Betabeers Madrid (especial OpenData)

Es el 16 de marzo (de 2017), es decir, el jueves que viene y estaré muy bien acompañado, como puede comprobarse en el programa.

Aunque aún no indique ahí de qué hablaré, tengo la presentación hecha a falta, únicamente del título. Adelanto únicamente que el contenido está muy condicionado por lo que rematará la reunión, una mesa redonda sobre los datos abiertos en Madrid.

Un párrafo afortunadísimo sobre las "nuevas aptitudes"

Traduzco:

Las nuevas aptitudes que tanto atraen la atención de los medios no sirven para resolver más eficazmente el problema de la inferencia; son puras técnicas de supervivencia para gestionar los artefactos inducidos por la computación distribuida a gran escala. Lidian con las enormes restricciones que impone el mundo de los sistemas multiproceso y distribuidos sobre los algoritmos. En este mundo tan constreñido, el elenco de algoritmos utilizables es tan limitado si se lo compara con el disponible en el de un único procesador, que es inevitable adoptar técnicas estadísticas que hubieran sido tachadas de rudimentarias, si no de inadecuadas, en otros tiempos. Estos problemas consumen nuestro tiempo y energía, deforman nuestro criterio sobre lo que resulta adecuado y nos desvían de las estrategias de análisis de datos que habríamos aplicado de oficio en otras circunstancias.