1.1 Contenido y plan del libro

Este libro está motivado por la experiencia del autor en entornos de trabajo similares a los descritos más arriba y cubre aquellos aspectos que ha visto que más demandaban sus colegas. Que son, esencialmente, cuatro:

  • Crear visualizaciones de datos de alta calidad.
  • Crear dashboards para visualizar y analizar datos.
  • Crear informes automáticos.
  • Disponer de herramientas de análisis estadístico para ahondar en el conocimiento de los datos.

Este libro se centra en los tres primeros, aunque hace una breve incursión en el último. El motivo para excluirlo es que exige no solo un par de capítulos en este libro sino una biblioteca entera que, seguro, desarrollarán mucho mejor otros autores.

Claro que son inalcanzables si el interesado no se familiariza con los prerrequisitos (tablas, vectores, programación) que son los mimbres con los que armar aquellos canastos. El plan del libro incluye el ubicar las recompensas lo más tempranamente posible para que el trayecto por los capítulos más áridos sean más llevaderos. Obviamente, eso deja muchos cabos sueltos que el autor espera que el lector, motivado por las aplicaciones, cubra de mejor grado. Por eso, además, cada sección termina con un apartado lleno de consejos y referencias para llegar más allá de lo que aquí se cuenta.

La obra deja fuera varios temas de interés como, por ejemplo:

  • Las series temporales. Porque son objetos especiales que se manipulan y se analizan con herramientas específicas. Incluirlas contribuiría a confundir por acumulación de conceptos nuevos antes que a facilitar la transición de lector desde completo ignorante hasta usuario capaz de manejar R autónomamente.
  • La manipulación de datos grandes. R sufre una no del todo justificada fama de tener problemas para manipular datos grandes (o medianos, i.e., datos con muchos registros pero que aún caben en la RAM de un ordenador moderno). Aunque existen extensiones ad hoc para procesarlos eficazmente, por el mismo motivo que antes, no se tratarán aquí.
  • La estadística. R es también, entre otras muchas cosas, una herramienta para el análisis estadístico de datos. Pero todo lo que tiene que ver con la estadística viene justo después de lo que el libro trata. Incluso cuando toque temas de interés estadístico (p.e., la regresión lineal), lo hará más desde la perspectiva de su encaje en R que desde la descripción del aparataje matemático subyacente.

El libro no está ordenado por materias. De hecho, comparado con otras obras más formales, está desordenado. Ni siquiera comienza por lo más básico (p.e., vectores) sino por lo más familiar para su audiencia potencial: las tablas. Esto es así porque el libro es una carrera contrarreloj cuyas metas son las recompensas anunciadas más arriba: gráficos, informes automatizados y dashboards.

El libro quiere dejar claro que R no es solo un lenguaje de programación: más bien, R es también un lenguaje de programación. El usuario habitual de R no programa propiamente sino que utiliza R interactivamente: ensaya, se equivoca y vuelve a probar. Solo cuando termina el ciclo y el resultado es satisfactorio, produce un resultado final. Que, usualmente, no es un programa sino, p.e., un informe. Por eso la parte relativa a la programación se relega a la parte final.

El libro lleva al lector hasta el punto en el que puede comenzar a aplicar métodos estadísticos (y de la llamada ciencia de datos) por su cuenta. El último capítulo es una introducción a la materia. En concreto, a cómo se aplicar esos métodos con R. La gran lección que aprender es que gran parte de los métodos estadísticos habituales no solo están disponibles, sino que tienen un tratamiento homogéneo y previsible en R.

Existe un principio director en Python: debería existir un método obvio (y preferiblemente solo uno) de hacer las cosas. En R no es así: existen tal vez demasiadas maneras alternativas de hacer las cosas y eso es un problema, un problema muy desconcertante, para el principiante. No obstante, por motivos pedagógicos, el libro tratará de presentar una y solo una de las formas de resolver un determinado problema: la que el autor, falible, considere más natural. De todos modos, el autor espera que el lector sea capaz, al final de la obra, de dar con, aplicar, evaluar y comparar las distintas alternativas.