Si no preparan los datos con anticipación para obtener un rendimiento óptimo, no complacerá a quienes los consuman.
Es fundamental que las organizaciones tengan una estrategia y metodología para preparar proyectos de Big Data y la ejecuten fielmente.
Una estrategia de preparación de datos debe contener los siguientes elementos:
Comprensión de las preguntas comerciales actuales y futuras para las que se espera que los datos den respuestas.
Conocer las áreas del negocio donde se aplicarán los análisis de big data establece un contexto comercial para los datos y ayuda a configurar la estrategia de recopilación y ejecución de datos. El objetivo en esta fase es identificar qué datos de su empresa son relevantes para las preguntas clave del negocio y cuáles no.
Centralización de datos.
Los datos deben normalizarse para que sean consistentes y todos en la empresa utilicen los mismos datos, así resulta esencial alojar todos los datos para análisis en un repositorio centralizado mantenido por TI, aunque puede optar por llenar diferentes subconjuntos de estos datos maestros para áreas comerciales específicas.
Identificación de fuentes de datos que deben alimentarse al repositorio central de información analítica.
Una vez que se definen los casos y las preguntas del negocio, se deben identificar los conjuntos de datos y las fuentes que se pueden usar en conjunto para responder las preguntas importantes del negocio. Estas fuentes de datos pueden provenir de dentro o fuera de la empresa.
Identificación de futuras fuentes de datos que puedan ser relevantes.
Hay que comenzar a identificar conjuntos de datos adicionales o fuentes que la empresa pueda necesitar en el futuro. Estas fuentes de datos inicialmente no tendrán datos preparados, pero su identificación proporcionará una hoja de ruta para la preparación de datos en el futuro.
Metodología de preparación de datos.
Hay tres pasos fundamentales para mover datos limpios a un repositorio de datos central. Primero, los datos se extraen de su fuente. Luego, se transforma en un formato que es compatible con el destino de datos al que se dirige. Por último, se carga en el repositorio de destino. La parte importante es la transformación.
Selección de herramientas efectivas de preparación de datos.
Los objetivos deben ser preparar sus datos para que sean de la más alta calidad y elegir herramientas que sean fáciles de usar y que proporcionen un medio para automatizar los pasos de preparación de datos.