Seguridad en Dataplex: la gran olvidada

¿Buscas nuestro logo?

Aquí te dejamos una copia, pero si necesitas más opciones o quieres conocer más, visita nuestra área de marca.

Después de la introducción a cómo gobernar tu plataforma de datos con Dataplex y de ver puntos claves del gobierno del dato como su linaje o su calidad, nos queda por tratar un punto que normalmente no es muy sexy pero que quizás, por importancia, debería de ser el primero en tener en cuenta: cómo securizar con Dataplex.

Data Security

Es la parte más olvidada del gobierno del dato pero no la menos importante. Cuando hablamos de seguridad, podemos hacerlo a dos niveles:

Control de acceso. Quién tiene acceso a qué.
Enmascaramiento de datos. Se tiene acceso a la información pero está enmascarada.

Si bien es cierto que Google ya permitía de manera independiente en diferentes productos poder hacer control de acceso, ahora se permite una manera unificada de hacerlo desde Dataplex. Esta parte está aún en preview y Google le ha dado el nombre de Governance rules.

Es necesario conocer cierta terminología antes de entrar en detalle:

Taxonomía: es una clasificación jerárquica de elementos que tienen características en común.
Policy Tag: definición de la etiqueta que se asociará a un recurso (tabla, columna).
Data Policy: tiene la información del Principal (usuario), Rol, etc.

La estructura jerárquica de estos elementos es la siguiente:

Estructura jerárquica: 1º Taxonomía, 2º Policy Tag, 3ª Data Policy

Control Access

Podemos controlar el acceso a través de policy tags.

Los sistemas destinos soportados son:

BigQuery: Datasets, Tables, Columns.
Cloud Storage: Buckets y folders (vía managed folders).

Veamos con un ejemplo cómo funcionaría el control de acceso. Para ello, vamos a definir la siguiente taxonomía/policy tag/data policy:

1º Taxonomía: sensitive data / 2º Policy Tag: NIF / 3º Data Policy: principal anavidad@paradigmadigital.com role fine-grained reader

schema and column tags - cómo se ve la estructura en la herramienta

Una vez asignado el tag policy NIF a la columna “nif”, cualquier persona que no sea anavidad@paradigmadigital.com recibirá un error al hacer la consulta “select nif from users;” pero podrá realizar la consulta “select name from users”.

Como regla general tenemos que saber que, una vez asociado un policy tag a una columna (que contenga al menos un data policy), el control de acceso es automáticamente forzado. El resto de usuarios o grupos no serán capaces de leer esa columna.

Data Masking

La funcionalidad de data masking está construida sobre el sistema de control de acceso. Esto quiere decir que se puede aplicar enmascaramiento a usuarios, grupos o cuentas de servicio. El enmascaramiento de datos siempre se hará a nivel de columna y su funcionamiento es bastante similar al access control. Veamos el siguiente ejemplo:

1º Taxonomy: masking-data / 2º Policy Tag: date-masking / 3º Data Policy: principal anavidad@paradigmadigital.com, role Masked Reader, Masking Rule Date Year Mask

En este caso, tenemos la taxonomía con el nombre nada original “masking-data”, un policy tag llamado “date-masking” y un único data policy que lo que hará es que, al usuario anavidad@paradigmadigital.com, le haga un trucado del valor de la columna de tipo timestamp o date a nivel de año. El resto de usuarios podrán seguir viendo el valor concreto de la fecha.

Las posibles reglas de enmascaramiento son las siguientes:

Nullify
Default value
Date Year Mask
Hash
Email Mask
First four Characters
Last four Characters

Aquí dejamos una tabla de BigQuery donde se ha asociado el policy tag “date-masking” a la columna “fecha_inicio”:

Tabla BigQuery que muestra la asociación de date-masking a fecha_inicio

Limitaciones:

Columnas que sean usadas para clustering o particionado de tablas.
Funciones, operadores y expresiones que utilicen Collation.
Puedes consultar la lista completa de compatibilidades aquí.

Como regla general tenemos que saber que, una vez asociado un policy tag de enmascaramiento a una columna (que contenga al menos un data policy), el masking es automáticamente aplicado solamente a los principales que tengan asignado ese policy tag. El resto de usuarios o grupos serán capaces de ver el dato en claro.

Como último punto debemos tener en cuenta que los policy tag pueden estar anidados por niveles tal y como se muestra en la siguiente imagen:

Los policy tags pueden tener anidados data policy y otros policy tags en el mismo nivel

Comentamos este detalle al final para no meter complejidad en los ejemplos, pero como norma general debemos saber que al aplicar una policy tag de segundo nivel sobre una columna, también se aplicarán los data policies del policy tag de primer nivel.

Conclusión

Dataplex es un servicio totalmente necesario, que permite tocar muchos de los puntos críticos en el gobierno de la plataforma de datos y que se integra perfectamente con otros productos de GCP casi de manera automática.

Qué nos gusta de Dataplex: su fácil integración con otros servicios de GCP. Si la mayor parte de tu stack tecnológico se encuentra en GCP, es una aproximación rápida para ayudarte a gobernar tu plataforma de datos.

Cosas que esperamos que mejoren: Dataplex reemplaza al antiguo Data Catalog como servicio, absorbiendo toda su funcionalidad. La documentación y las APIs mezclan bastante ambos servicios y a veces puede resultar confuso, al igual que el nombrado de elementos, en el que puedes encontrarte componentes que, siendo lo mismo, se llaman de maneras diferentes.

Como último punto, y debido al gran esfuerzo que están haciendo en este producto, está en constante cambio.

Andrés Navidad

Aunque empecé mi carrera haciendo back-end en aplicaciones web, siempre me gustaron los conceptos de arquitectura y computación distribuida. Hace 7 años tuve la oportunidad de empezar en el mundo Big Data y ahora me gusta aplicar todos esos conceptos en arquitecturas basadas en nubles públicas. Entusiasta de las nuevas tecnologías, las motos y la gastronomía.

Ver más contenido de Andrés.

Más contenido sobre esto.

Gobernando tu plataforma de datos con Dataplex

Gobernando tu plataforma de datos con Dataplex.

Por Andrés Navidad
02/09/2024

Buscando la calidad y el linaje del dato con Dataplex

Buscando la calidad y el linaje del dato con Dataplex.

Por Andrés Navidad
16/09/2024

Gobierno del dato: desafíos y factores clave

Gobierno del dato: desafíos y factores clave.

Por Alberto Serrano
26/04/2021

Gobierno del dato: modelos y herramientas

Gobierno del dato: modelos y herramientas.

Por Alberto Serrano
03/06/2021

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.