Gobernando tu plataforma de datos con Dataplex

¿Buscas nuestro logo?

Aquí te dejamos una copia, pero si necesitas más opciones o quieres conocer más, visita nuestra área de marca.

Este es el primer post de una serie de 3 sobre Dataplex. En este post haremos una introducción al servicio y te contaremos cómo gobernar tu plataforma con Dataplex. Más adelante, explicaremos cómo mejorar la calidad y el linaje del dato con este servicio y, por último, cerraremos la serie hablando de la seguridad (esa gran olvidada). En él nos centraremos en cómo securizar con Dataplex. ¡Vamos a ello!

¿Por qué gobernar tu plataforma de datos?

Si echamos la vista atrás y vemos cómo han evolucionado las plataformas analíticas con el paso del tiempo, podemos ver un punto de inflexión importante hace una década.

Las capacidades de procesamiento analíticas (soportadas por las nuevas tecnologías que aparecieron a partir del paper de Map Reduce) con Hadoop MR, Spark, Flink, Impala… hacían posible procesar volúmenes de información en un tiempo que antes era inviable.

Apareció el concepto de Datalake, donde se unificaba toda la información de una compañía en un único punto. Acabaríamos así con los silos que hacían que nuestros datos fuesen dark-data.

Teníamos el cocktail perfecto desde el punto de vista analítico: toda la información en un único punto y capacidad para analizarla en un tiempo razonable, escalando horizontalmente y siendo cost-effective (si lo comparamos con soluciones datawarehouse empresariales).

Las empresas empezaron a ingestar información sin quizás prestar demasiada atención a qué pasaría en el futuro, cuando unos pocos gigabytes se convertirían en terabytes o petabytes.

Ya no teníamos el problema de poder procesar esa información. Sin embargo aparecían otros, fruto de muchos departamentos diferentes de la compañía “empujando” datos al Datalake o creando nuevos datos agregados:

Visibilidad de qué hay y qué no en el Datalake.
Qué significa un campo concreto.
Accesos no deseados a cierta información.
¿Cómo se ha calculado un dato? ¿De dónde viene?
Inconsistencia de datos agregados en diferentes tablas que, teóricamente, representan lo mismo.

Permíteme que te cuente, en una única anécdota profesional, cómo se ven reflejados todos y cada uno de estos problemas:

Preparé un dashboard de ventas para gente financiera con un gran número que indica las ventas totales por cada mes. Al presentarlo, no tardaron en tirar mi trabajo por la borda.

El feedback del equipo de facturación fue el siguiente:
“Ese dato no está bien. ¿Cómo lo has calculado? ¿El origen del dato es el sistema XXXX? ¿Por qué tienes tú acceso a esa información? ¿Por qué no has utilizado la tabla TOR_REG_SAL_AGG de la capa silver para ello? Además, esa información de base que has usado está mal, no existen precios de 0€ para nada que vendamos”.

Son muchas preguntas y para algunas de ellas no tenía respuesta. Y debería haberlas tenido. Lección aprendida.

Cuando realizas un producto end-to-end sin dependencias, estás a salvo. Sin embargo, cuando tienes que reaprovechar el trabajo de otros equipos, la calidad de tu trabajo depende (en parte) de la visibilidad que tengas sobre lo que han hecho y han dejado otras personas.

Conociendo Dataplex

Dataplex es el servicio que ofrece Google Cloud para una gestión centralizada del gobierno del dato. Como podemos intuir, se integra perfectamente con otros servicios de Google y nos simplifica bastante la vida.

Ofrece también posibilidades de gobierno sobre datos y sistemas fuera de Google, aunque no es la mejor solución de mercado para una herramienta Cloud Agnostic. A continuación, veremos los puntos principales de Dataplex:

Puntos clave del gobierno

Data Discover

Tener visibilidad de qué existe y qué no, es el primer paso para tener una gobierno del dato. Para ello, Dataplex tiene tres conceptos que debemos conocer:

Lake: instancia lógica que permite gestionar recursos de almacenamiento a través de diferentes proyectos en la misma organización.
Zone: una agrupación lógica de assets dentro de un lake. Un lake puede tener múltiples zones que pueden organizarse según las necesidades organizativas o tecnológicas de tu compañía.
Assets: activos de almacenamiento que pueden ser Buckets de Cloud Storage o Datasets de BigQuery.
Entities: todos los elementos que Dataplex pueda descubrir dentro de un asset es una entity. Tablas, ficheros que automáticamente estarán disponibles como tablas externas en Bigquery, etc.

Estructura de la plataforma de datos Dataplex

Dataplex va a descubrir automáticamente las entities (siempre que se cumplan ciertas condiciones en cuanto a formato de datos: Apache Parquet, ORC, Json, Avro, CSV), las siguientes entidades y sus metadatos:

Tablas:

Datasets de Bigquery. Recopilar metadatos técnicos, como el nombre de la tabla, el esquema y las particiones.
Objetos de Cloud Storage estructurados y semiestructurados (con un formato de datos determinado). Estas tablas son publicadas automáticamente como external tables.

Fileset:

Información no estructurada en Cloud Storage.

Hasta aquí el primero de la serie de post de Dataplex. En el siguiente post vamos a comentar aspectos básicos del gobierno del dato como el linaje del dato, calidad o catálogo.

Andrés Navidad

Aunque empecé mi carrera haciendo back-end en aplicaciones web, siempre me gustaron los conceptos de arquitectura y computación distribuida. Hace 7 años tuve la oportunidad de empezar en el mundo Big Data y ahora me gusta aplicar todos esos conceptos en arquitecturas basadas en nubles públicas. Entusiasta de las nuevas tecnologías, las motos y la gastronomía.

Ver más contenido de Andrés.

Más contenido sobre esto.

Buscando la calidad y el linaje del dato con Dataplex

Buscando la calidad y el linaje del dato con Dataplex.

Por Andrés Navidad

Seguridad en Dataplex: la gran olvidada

Seguridad en Dataplex: la gran olvidada.

Por Andrés Navidad

Gobierno del dato: modelos y herramientas

Gobierno del dato: modelos y herramientas.

Por Alberto Serrano

Gobierno del dato: desafíos y factores clave

Gobierno del dato: desafíos y factores clave.

Por Alberto Serrano

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.