Boe

La Consejería de Empleo de la Función General de la Comunidad Autónoma de Ordenación Provincia de la Audiencia Profesional

Ese es el nombre agramatical de una nueva consejería pergeñada por una red neuronal recurrente que he ajustado usando un año de BOEs. El código, adaptado de aquí y sustancialmente mejorado, es library(mxnet) batch.size <- 32 seq.len <- 64 num.hidden <- 128 num.embed <- 8 num.lstm.layer <- 1 num.round <- 1 learning.rate <- 0.1 wd <- 0.00001 clip_gradient <- 1 update.period <- 1 make.data <- function(dir.boe, seq.len = 32, max.vocab=10000, dic = NULL) { text <- lapply(dir(dir.

Para los que buscáis proyectos de análisis / visualización de datos

Igual hay alguien que busca un proyecto interesante de análisis / visualización de datos. Tengo uno en mente para el que ando sin tiempo. Así que lo sugiero aquí por si alguien quiere hincarle el diente. Consiste en: Bajarse el BOE hasta cuando hay texto en formatos decentes (principios de los 90, si no recuerdo mal) Extraer los 1,2,3,¿4?-gramas Construir algo parecido a esto Ponerme en la letra chiquita de los créditos y pagarme una cerveza ¿O no es interesante?

Podrá... ¿qué significará podrá?

El artículo 8 de la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público dice, (con mi subrayado): La reutilización de la información de las Administraciones y de los organismos del sector público a los que se refiere el artículo 2 de la presente ley podrá estar sometida, entre otras, a las siguientes condiciones generales: a) Que el contenido de la información no sea alterado. b) Que no se desnaturalice el sentido de la información.

La complejidad de la ley

El otro día publiqué código para bajar el BOE completo. Pero no conté qué me llevó a escribirlo. El motivo es que, en un tiempo en que andaba menos ocupado que ahora, quise ver si se podía medir la complejidad de la ley. En realidad, la de los textos legales. ¿Debería haber motivo para que estos sean más impenetrables —de serlo— que un manual de Python? En eso consistía ese proyecto en el que acabé no embarcándome.

Aventuras de "web scraping": cómo bajarse todo el BOE

R
Rescato aquí para futura o ajena referencia un pedazo de código que utilicé un día para un proyecto que se abortó y que tenía que ver con el análisis del texto del BOE. Reza así: setwd("~/boe/boes") library(RCurl) h = getCurlHandle() for( i in 1:3231){ mi.url <- paste("http://www.boe.es/diario_boe/xml.php?id=BOE-A-2013-", i, sep = "") nom.fich <- paste("2013-A-", formatC(i, width = 6, format = "d", flag = "0"), ".xml", sep = "") res <- getURI(mi.