Inspirado por esto he tratado de contrastar una hipótesis en otro contexto.
Las cosas, o se hacen bien, o no se hacen. Como mi análisis se ha complicado con casos y casitos particulares, aunque siga pensándo cierta (en caso de tener que apostar, como priori, claro) la hipótesis de partida, abandono su búsqueda.
Como subproducto, esto:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
library(xml2) library(stringr) library(plyr) library(lubridate) periodos <- expand.grid(anno = 2010:2017, mes = 1:12) periodos$ind <- periodos$anno * 100 + periodos$mes periodos <- periodos[periodos$ind < 201711,] periodos <- paste(periodos$anno, str_pad(periodos$mes, 2, pad = "0"), sep = "_") raw <- lapply(periodos, function(x){ url <- paste0("http://www.eldiario.es/sitemap_contents_", x, ".xml") print(url) as_list(read_xml(url)) }) #df <- lapply(raw, function(y) ldply(y, function(x) as.data.frame(t(unlist(x))))) res <- lapply(raw, unlist) res <- lapply(res, function(x) t(matrix(x, 3, length(x) / 3))) res <- data.frame(url = res[,1], time = res[,2], stringsAsFactors = FALSE) res$time <- gsub("\\+.*", "", res$time) res$time <- strptime(res$time, "%Y-%m-%dT%H:%M:%S") res$titular <- gsub("_0_[0-9]*.html", "", res$url) res$titular <- gsub(".*/", "", res$titular) res$titular <- tolower(res$titular) res$year <- year(res$time) res$month <- month(res$time) |
Igual le sirve a alguien para analizar palabras clave en titulares de ese u otro medio, su evolución por mes, etc.