Paralelización de bucles con foreach

2011-4-8 (Última modificación: 2011-4-8)

Parcialmente en agradecimiento a Revolution Analytics por haber concedido una subvención a las III Jornadas de usuarios de R voy a discutir en esta entrada cómo paralelizar bucles usando los paquetes foreach y doMC desarrollados por dicha empresa.

El paquete foreach contiene, esencialmente, una única función, foreach, que, en su forma más básica, permite ejecutar bucles con una sintaxis un tanto peculiar:

foreach( i = 1:3 ) %do% log( i )

Volveré sobre algunas operaciones interesantes y bastante útiles que permite realizar esta función porque, de todas ellas, hoy me ocuparé sólo de una: la que abre la puerta de una manera sencilla a la paralelización de bucles.

Pero no lo haré sin antes explicar la singularidad de la notación de la construcción anterior y el papel de la partícula %do%: en ella, foreach( i = 1:3 ) construye un objeto de la clase foreach, como puede comprobarse si uno ejecuta

class( foreach( i = 1:3 ) )

Por otro lado, log( i ) es una expresión de R. La partícula %do% que media entre ellos no representa sino un operador binario que acepta como parámetros un objeto de la clase foreach y una expresión de R (al igual que el operador binario %*% acepta como parámetros matrices de una determinada dimensión y las multiplica). Este operador no hace otra cosa que ejecutar la expresión de R en la sucesión de environments que crea el objeto foreach.

Pero además de %do%, que opera secuencialmente, existe %dopar%, que lo hace en paralelo. Como el ejemplo

foreach( i = 1:3 ) %dopar% log( i )

sería poco ilustrativo, utilizaremos más bien

    foreach( i = 1:3 ) %dopar% { Sys.sleep( i ); i }

Desgraciadamente, puede comprobarse que no basta con utilizar %dopar%:

    > system.time( foreach( i = 1:3 ) %dopar% { Sys.sleep( i ); i } )
       user  system elapsed
      0.010   0.030   6.027
    Warning message:
    executing %dopar% sequentially: no parallel backend registered

A pesar de utilizar %dopar%, R no paraleliza. Esto sucede porque es necesario registrar un motor de paralelización. Existen varios y en mi caso utilizaré el que proporciona el paquete doMC, un envoltorio del paquete multicore de Simon Urbanek. Así obtengo:

    library( doMC )   # carga el paquete multicore (MC)
    registerDoMC( 2 ) # registra MC y le informa de que
                      #   dispongo de dos núcleos
    system.time( foreach( i = 1:3 ) %dopar% { Sys.sleep( i ); i } )
    #   user  system elapsed
    #  0.030   0.010   4.044

Y, efectivamente, he conseguido paralelizar mi trivial operación.

Me es obligado advertir que el paquete multicore y, por lo tanto doMC que depende de él, no están disponibles en Windows. Mis lectores usuarios de tal SO (si no están avergonzados de reconocerlo en público, claro) podrán contarnos a los demás qué otro motor de paralelización pueden utilizar en él. ¡Se lo dejo de tarea!