Este es el primer post de una serie de 3 sobre Dataplex. En este post haremos una introducción al servicio y te contaremos cómo gobernar tu plataforma con Dataplex. Más adelante, explicaremos cómo mejorar la calidad y el linaje del dato con este servicio y, por último, cerraremos la serie hablando de la seguridad (esa gran olvidada). En él nos centraremos en cómo securizar con Dataplex. ¡Vamos a ello!

¿Por qué gobernar tu plataforma de datos?

Si echamos la vista atrás y vemos cómo han evolucionado las plataformas analíticas con el paso del tiempo, podemos ver un punto de inflexión importante hace una década.

Las capacidades de procesamiento analíticas (soportadas por las nuevas tecnologías que aparecieron a partir del paper de Map Reduce) con Hadoop MR, Spark, Flink, Impala… hacían posible procesar volúmenes de información en un tiempo que antes era inviable.

Apareció el concepto de Datalake, donde se unificaba toda la información de una compañía en un único punto. Acabaríamos así con los silos que hacían que nuestros datos fuesen dark-data.

Teníamos el cocktail perfecto desde el punto de vista analítico: toda la información en un único punto y capacidad para analizarla en un tiempo razonable, escalando horizontalmente y siendo cost-effective (si lo comparamos con soluciones datawarehouse empresariales).

Las empresas empezaron a ingestar información sin quizás prestar demasiada atención a qué pasaría en el futuro, cuando unos pocos gigabytes se convertirían en terabytes o petabytes.

Ya no teníamos el problema de poder procesar esa información. Sin embargo aparecían otros, fruto de muchos departamentos diferentes de la compañía “empujando” datos al Datalake o creando nuevos datos agregados:

  1. Visibilidad de qué hay y qué no en el Datalake.
  2. Qué significa un campo concreto.
  3. Accesos no deseados a cierta información.
  4. ¿Cómo se ha calculado un dato? ¿De dónde viene?
  5. Inconsistencia de datos agregados en diferentes tablas que, teóricamente, representan lo mismo.

Permíteme que te cuente, en una única anécdota profesional, cómo se ven reflejados todos y cada uno de estos problemas:

Preparé un dashboard de ventas para gente financiera con un gran número que indica las ventas totales por cada mes. Al presentarlo, no tardaron en tirar mi trabajo por la borda.

El feedback del equipo de facturación fue el siguiente:
“Ese dato no está bien. ¿Cómo lo has calculado? ¿El origen del dato es el sistema XXXX? ¿Por qué tienes tú acceso a esa información? ¿Por qué no has utilizado la tabla TOR_REG_SAL_AGG de la capa silver para ello? Además, esa información de base que has usado está mal, no existen precios de 0€ para nada que vendamos”.

Son muchas preguntas y para algunas de ellas no tenía respuesta. Y debería haberlas tenido. Lección aprendida.

Cuando realizas un producto end-to-end sin dependencias, estás a salvo. Sin embargo, cuando tienes que reaprovechar el trabajo de otros equipos, la calidad de tu trabajo depende (en parte) de la visibilidad que tengas sobre lo que han hecho y han dejado otras personas.

Conociendo Dataplex

Dataplex es el servicio que ofrece Google Cloud para una gestión centralizada del gobierno del dato. Como podemos intuir, se integra perfectamente con otros servicios de Google y nos simplifica bastante la vida.

Ofrece también posibilidades de gobierno sobre datos y sistemas fuera de Google, aunque no es la mejor solución de mercado para una herramienta Cloud Agnostic. A continuación, veremos los puntos principales de Dataplex:

Puntos clave del gobierno

Data Discover

Tener visibilidad de qué existe y qué no, es el primer paso para tener una gobierno del dato. Para ello, Dataplex tiene tres conceptos que debemos conocer:

Estructura de la plataforma de datos Dataplex

Dataplex va a descubrir automáticamente las entities (siempre que se cumplan ciertas condiciones en cuanto a formato de datos: Apache Parquet, ORC, Json, Avro, CSV), las siguientes entidades y sus metadatos:

  1. Tablas:
  1. Fileset:

Hasta aquí el primero de la serie de post de Dataplex. En el siguiente post vamos a comentar aspectos básicos del gobierno del dato como el linaje del dato, calidad o catálogo.

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete