Datanalytics

Procesos de ETL

La primera fase de un proyecto de minería de datos es la extracción, transformación y carga (ETL) de la información necesaria. Es una fase:

  • Crítica: de ella dependen el resto de las fases del proyecto.
  • Que puede resultar fuente potencial de costes inesperados.
  • Multidisciplinar: además de solvencia técnica, requiere una comprensión del negocio y del significado de los datos bajo las ópticas distintas de los distintos usuarios finales.
  • Específica porque los datos necesarios para la minería de datos deben ajustarse a criterios de contenido, calidad y formato muy concretos.

De hecho, entre los aspectos específicos de la ETL para minería de datos pueden contarse:

  • La creación de diccionarios de datos adecuados para la fase de modelización
  • La construccion de indicadores predictivos
  • La depuración de datos y la gestión de atípicos
  • El uso de técnicas de oversampling (y similares) de resultar necesario
  • La creación de conjuntos de control, test y validación de acuerdo con un diseño experimental adecuado

Herramientas de ETL

Como alternativa a las tradicionales del mercado, nos gusta proponer el uso de una serie de herramientas de ETL menos conocidas:

  • WPS, que puede reemplazar a SAS en empresas con una dependencia importante con respecto a este producto; las ventajas principales en este caso serían de compatibilidad de código y, muy fundamentalmente, de precio.
  • Kettle, sumamente intuitiva, con una curva de aprendizaje prácticamente plana y con un coste nulo.
  • Talend, parecida a la anterior, gratuita y de código abierto que incluye, además, módulos sofisticados de depuración de datos.
  • La suite de herramientas de ETL de nueva generación construidas alrededor de Hadoop, Hbase y MapReduce, orientadas a optimizar el rendimiento sobre hardware económico mediante paralelización masiva.