Procesos de ETL
La primera fase de un proyecto de minería de datos es la extracción, transformación y carga (ETL) de la información necesaria. Es una fase:
- Crítica: de ella dependen el resto de las fases del proyecto.
- Que puede resultar fuente potencial de costes inesperados.
- Multidisciplinar: además de solvencia técnica, requiere una comprensión del negocio y del significado de los datos bajo las ópticas distintas de los distintos usuarios finales.
- Específica porque los datos necesarios para la minería de datos deben ajustarse a criterios de contenido, calidad y formato muy concretos.
De hecho, entre los aspectos específicos de la ETL para minería de datos pueden contarse:
- La creación de diccionarios de datos adecuados para la fase de modelización
- La construccion de indicadores predictivos
- La depuración de datos y la gestión de atípicos
- El uso de técnicas de oversampling (y similares) de resultar necesario
- La creación de conjuntos de control, test y validación de acuerdo con un diseño experimental adecuado
Herramientas de ETL
Como alternativa a las tradicionales del mercado, nos gusta proponer el uso de una serie de herramientas de ETL menos conocidas:
- WPS, que puede reemplazar a SAS en empresas con una dependencia importante con respecto a este producto; las ventajas principales en este caso serían de compatibilidad de código y, muy fundamentalmente, de precio.
- Kettle, sumamente intuitiva, con una curva de aprendizaje prácticamente plana y con un coste nulo.
- Talend, parecida a la anterior, gratuita y de código abierto que incluye, además, módulos sofisticados de depuración de datos.
- La suite de herramientas de ETL de nueva generación construidas alrededor de Hadoop, Hbase y MapReduce, orientadas a optimizar el rendimiento sobre hardware económico mediante paralelización masiva.
