Después de la introducción a cómo gobernar tu plataforma de datos con Dataplex y de ver puntos claves del gobierno del dato como su linaje o su calidad, nos queda por tratar un punto que normalmente no es muy sexy pero que quizás, por importancia, debería de ser el primero en tener en cuenta: cómo securizar con Dataplex.

Data Security

Es la parte más olvidada del gobierno del dato pero no la menos importante. Cuando hablamos de seguridad, podemos hacerlo a dos niveles:

  1. Control de acceso. Quién tiene acceso a qué.
  2. Enmascaramiento de datos. Se tiene acceso a la información pero está enmascarada.

Si bien es cierto que Google ya permitía de manera independiente en diferentes productos poder hacer control de acceso, ahora se permite una manera unificada de hacerlo desde Dataplex. Esta parte está aún en preview y Google le ha dado el nombre de Governance rules.

Es necesario conocer cierta terminología antes de entrar en detalle:

La estructura jerárquica de estos elementos es la siguiente:

Estructura jerárquica: 1º Taxonomía, 2º Policy Tag, 3ª Data Policy

Control Access

Podemos controlar el acceso a través de policy tags.

Los sistemas destinos soportados son:

Veamos con un ejemplo cómo funcionaría el control de acceso. Para ello, vamos a definir la siguiente taxonomía/policy tag/data policy:

1º Taxonomía: sensitive data / 2º Policy Tag: NIF / 3º Data Policy: principal anavidad@paradigmadigital.com role fine-grained reader
schema and column tags - cómo se ve la estructura en la herramienta

Una vez asignado el tag policy NIF a la columna “nif”, cualquier persona que no sea anavidad@paradigmadigital.com recibirá un error al hacer la consulta “select nif from users;” pero podrá realizar la consulta “select name from users”.

Como regla general tenemos que saber que, una vez asociado un policy tag a una columna (que contenga al menos un data policy), el control de acceso es automáticamente forzado. El resto de usuarios o grupos no serán capaces de leer esa columna.

Data Masking

La funcionalidad de data masking está construida sobre el sistema de control de acceso. Esto quiere decir que se puede aplicar enmascaramiento a usuarios, grupos o cuentas de servicio. El enmascaramiento de datos siempre se hará a nivel de columna y su funcionamiento es bastante similar al access control. Veamos el siguiente ejemplo:

1º Taxonomy: masking-data / 2º Policy Tag: date-masking / 3º Data Policy: principal anavidad@paradigmadigital.com, role Masked Reader, Masking Rule Date Year Mask

En este caso, tenemos la taxonomía con el nombre nada original “masking-data”, un policy tag llamado “date-masking” y un único data policy que lo que hará es que, al usuario anavidad@paradigmadigital.com, le haga un trucado del valor de la columna de tipo timestamp o date a nivel de año. El resto de usuarios podrán seguir viendo el valor concreto de la fecha.

Las posibles reglas de enmascaramiento son las siguientes:

Aquí dejamos una tabla de BigQuery donde se ha asociado el policy tag “date-masking” a la columna “fecha_inicio”:

Tabla BigQuery que muestra la asociación de date-masking a fecha_inicio

Limitaciones:

Como regla general tenemos que saber que, una vez asociado un policy tag de enmascaramiento a una columna (que contenga al menos un data policy), el masking es automáticamente aplicado solamente a los principales que tengan asignado ese policy tag. El resto de usuarios o grupos serán capaces de ver el dato en claro.

Como último punto debemos tener en cuenta que los policy tag pueden estar anidados por niveles tal y como se muestra en la siguiente imagen:

Los policy tags pueden tener anidados data policy y otros policy tags en el mismo nivel

Comentamos este detalle al final para no meter complejidad en los ejemplos, pero como norma general debemos saber que al aplicar una policy tag de segundo nivel sobre una columna, también se aplicarán los data policies del policy tag de primer nivel.

Conclusión

Dataplex es un servicio totalmente necesario, que permite tocar muchos de los puntos críticos en el gobierno de la plataforma de datos y que se integra perfectamente con otros productos de GCP casi de manera automática.

Qué nos gusta de Dataplex: su fácil integración con otros servicios de GCP. Si la mayor parte de tu stack tecnológico se encuentra en GCP, es una aproximación rápida para ayudarte a gobernar tu plataforma de datos.

Cosas que esperamos que mejoren: Dataplex reemplaza al antiguo Data Catalog como servicio, absorbiendo toda su funcionalidad. La documentación y las APIs mezclan bastante ambos servicios y a veces puede resultar confuso, al igual que el nombrado de elementos, en el que puedes encontrarte componentes que, siendo lo mismo, se llaman de maneras diferentes.

Como último punto, y debido al gran esfuerzo que están haciendo en este producto, está en constante cambio.

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete