Sparkr

SparkR 1.4: carga de ficheros CSV

R
He instalado Spark 1.4 recientemente y he comenzado a cacharrear. Antes de nada, quiero cargar datos. Advierto que ha cambiado sustancialmente la API de SparkR. Entre otras novedades, desapareció (o más bien, se escondió) la función textFile, que permitía leer ficheros línea a línea. Ahora está pero no se exporta. La verás solo si haces SparkR:::textFile. ¿Signo de deprecación? Se pueden crear un DataFrame (tablas distribuidas de Spark) a partir de un data.

Liberado Spark 1.4

R
El anuncio de la liberación de la versión 1.4 de Spark se ha materializado. Está aquí. ¿Qué trae de novedad la versión 1.4? La integración con SparkR —antes había que instalarlo con algo de dolor independientemente— y, aparentemente, data.frames distribuidos y, cuentan, una sintaxis similar a la de dplyr —honestamente, hubiera preferido otra— para manipularlos. Iré desgranando por aquí novedades. Y estoy pensando organizar una install & tutorial party un día de estos en Madrid.