Cómo garantizar la calidad de los datos en la era de Big Data
La era de Big Data: ha pasado poco más de una década desde que The Economist nos advirtió que pronto nos ahogaríamos en datos. La pila de datos moderna, con su calidad de datos, ha surgido como un chaleco salvavidas propuesto para esta avalancha de datos, encabezada por empresas emergentes de Silicon Valley como Snowflake, Databricks y Confluent.
Hoy en día, cualquier emprendedor puede registrarse en BigQuery o Snowflake y tener una solución de datos que puede escalar con su negocio en cuestión de horas. La aparición de soluciones de almacenamiento de datos baratas, flexibles y escalables fue en gran medida una respuesta a las necesidades cambiantes impulsadas por la explosión masiva de datos.
Actualmente, el mundo produce 2,5 trillones de bytes de datos al día (hay 18 ceros en un trillón). La explosión de datos continúa en los rugientes años 20, tanto en términos de generación como de almacenamiento: se espera que la cantidad de datos almacenados continúe duplicándose al menos cada cuatro años . Sin embargo, una parte integral de la infraestructura de datos moderna aún carece de soluciones adecuadas para la era de Big Data y sus desafíos: Monitoreo de la calidad y validación de calidad de datos.
Permítanme explicarles cómo llegamos aquí y los desafíos futuros para la calidad de los datos.
El dilema valor vs volumen de Big Data
En 2005, Tim O’Reilly publicó su innovador artículo “¿Qué es la Web 2.0?”, Lo que realmente inició la carrera de Big Data. El mismo año, Roger Mougalas de O’Reilly introdujo el término “Big Data” en su contexto moderno, refiriéndose a un gran conjunto de datos que es prácticamente imposible de administrar y procesar con herramientas de BI tradicionales.
En 2005, uno de los mayores desafíos con los datos era administrar grandes volúmenes, ya que las herramientas de la infraestructura de datos eran costosas e inflexibles, y el mercado de la nube aún estaba en su infancia (AWS no se lanzó públicamente hasta 2006). La otra era la velocidad: Como Tristán práctico de Fishtown Analytics (la compañía detrás de DBT) notas , antes de corrimiento al rojo puso en marcha en 2012, la realización de análisis relativamente sencillas podrían ser increíblemente lento incluso con conjuntos de datos de tamaño medio. Desde entonces, se ha creado un ecosistema completo de herramientas de datos para mitigar estos dos problemas.
Escalar las bases de datos relacionales y los dispositivos de almacenamiento de datos solía ser un verdadero desafío. Hace solo 10 años, una empresa que quería comprender el comportamiento de los clientes tenía que comprar y montar servidores antes de que sus ingenieros y científicos de datos pudieran trabajar en la generación de conocimientos. Los datos y su infraestructura circundante eran costosos, por lo que solo las empresas más grandes podían permitirse la ingestión y el almacenamiento de datos a gran escala.
Fuente: https://techcrunch.com