Hoy en día una buena estrategia y gobierno de datos son aspectos clave si queremos convertirnos en una auténtica data-driven company.

Ya os contamos qué es el gobierno del dato y cuáles son los retos y los factores claves para lograr una cultura del dato. Pero, ¿conocemos los modelos que hay de gobierno del dato?, ¿cuáles son las tendencias?, ¿qué herramientas son las más útiles?

Charlamos con Alberto Serrano, Data Business Development Lead en Paradigma Digital, que nos contesta a todas estas preguntas.

  1. ¿Hay distintos modelos de gobierno del dato?, ¿qué tendencias nos encontramos al respecto?

Sí, así es. A nivel organizativo podemos distinguir distintos tipos de modelos. En los extremos, tenemos desde modelos centralizados, con un único punto de control y toma de decisiones, con áreas funcionales que tienen poca o ninguna responsabilidad, a modelos independientes, en los que las áreas funcionales operan con total autonomía, a la vez que mantienen estándares globales para cumplir con los requisitos específicos de la empresa.

Como siempre, la virtud está en el punto medio. Una forma habitual de implantar un marco de gobierno es:

1. Empezar con un modelo organizativo centralizado, con un núcleo de personas que van adquiriendo capacidades en el ámbito del gobierno, a la vez que se constituyen los procesos clave que forman parte de un primer modelo operativo de gobierno (como la definición de dominios funcionales y de términos de negocio).

2. Y según vamos consiguiendo madurez a nivel organizativo, vamos transicionando a otro tipo de modelos, en los que podamos escalar, lograr una mayor implicación de otros actores y distribuir responsabilidades.

La implantación del gobierno del dato puede parecer un reto abrumador. La clave está en elegir el modelo organizativo adaptado a nuestro contexto, y escalar poco a poco según ganamos madurez.
La implantación del gobierno del dato puede parecer un reto abrumador. La clave está en elegir el modelo organizativo adaptado a nuestro contexto, y escalar poco a poco según ganamos madurez.

Existe una tendencia clara hacia modelos de Agile Data Governance, en los que, de forma iterativa e incremental, y siguiendo los principios de las metodologías ágiles, podemos realizar una implantación del gobierno del dato, facilitándonos el transicionar desde modelos centralizados hacia modelos distribuidos o federados, paulatinamente delegando ciertas responsabilidades, ya sea de la ejecución de ciertos procesos o incluso de la definición o adaptación de los mismos acorde al ámbito de una unidad organizativa en particular.

En definitiva, acercando el gobierno al usuario final del dato. Otro de los aspectos importantes de este tipo de modelos es que no son intrusivos, sino colaborativos, orientados a actividades de soporte, capacitación, divulgación, resolución de conflictos y delegación, y donde la motivación, reconocimiento y políticas de rewarding son factores clave.

Este tipo de modelos gustan en especial en Paradigma, ya que en nuestro ADN tenemos desde hace muchos años principios como el agilismo la autorresponsabilidad, y nos encanta ver la tracción que está tomando nuevos modelos de gobierno ágil y no intrusivo.

En cualquier caso, el reto está en adaptar el marco de gobierno al contexto organizativo, e introducirlo como acelerador de otras iniciativas alineadas con la estrategia, y nunca como un impedimento. Aunque tomemos como referencia frameworks conocidos en la industria, como los de DAMA o DCAM, es fundamental esa adaptación, tanto inicialmente, como en etapas posteriores.

Finalmente, es importante tener en cuenta que el gobierno de datos no es un proyecto, es una iniciativa que se desarrolla de forma continua.

Aunque en una primera etapa, podemos considerar la implantación de la función de gobierno como un proyecto o programa (conjunto de proyectos relacionados con claras sinergias), éste debe de transicionar tras una fase de set-up en una actividad recurrente, donde aseguremos que tenemos la capacidad adecuada para poder llevarla a cabo, a la vez que vamos evolucionando el propio marco de gobierno.

En definitiva, nuestros datos y su ecosistema cambian constantemente, si no tanto en su definición, sí en cómo son utilizados en nuestros sistemas de información, y no dejan de aparecer retos. Es fundamental lograr una evolución del modelo de gobierno que permita hacer del gobierno una actividad útil y sostenible.

  1. Las compañías son modelos en constante evolución y, como consecuencia, hacen que evolucionen los sistemas y los datos, ¿cómo se gestiona ese avance continuo de la nueva información?

Aquí entrarían en juego varios ejes del gobierno, gestión y arquitectura de datos:

1. Un alineamiento y retroalimentación continua de nuestro marco de gobierno con la estrategia de datos y del negocio, de forma que busquemos cómo esa nueva información nos puede aportar valor, mejora en nuestra eficiencia, dar una ventaja competitiva, etc.

2. Los procesos de nuestro modelo operativo de gobierno deben de recoger los aspectos de la gestión de esta nueva información: cómo incorporarla como parte de nuestros activos, recoger nuevos términos de negocio, definir y enriquecer nuestros modelos de datos corporativos, crear nuevas reglas de calidad, definir cómo va a ser almacenada y procesada esa información. Diseminar esa nueva información disponible, a la que podemos sacar valor, mediante su explotación, o creando nuevos productos de datos.

3. Asimismo, los propios modelos organizativos y los procesos del modelo operativo de gobierno son entes en continua evolución. Según vamos creciendo, podemos involucrar cada vez a más personas a nivel organizativo para que nos vayan ayudando a definir datos, a identificar políticas de calidad, etc. Asimismo, si tenemos nuevas tipologías de activos de datos, es posible que tengamos que extender nuestras prácticas de gobierno a buses de eventos, o arquitecturas de apificación, y mantener una coherencia en las estructuras de datos usadas a través de ellas.

4. Además, es importante que en nuestro roadmap estemos alineados con los aspectos tecnológicos, de modo que nuestra arquitectura de datos vaya evolucionando con la anticipación suficiente para soportar todas las iniciativas del gobierno del dato y soportar nuevos usos de la información.

5. Por último, algo fundamental es la planificación y la gestión de la demanda: cómo voy a evolucionar un roadmap de todas nuestras iniciativas de datos, priorizarlas en base a su valor, gestionar las distintas interdependencias y dimensionar la capacidad de nuestros equipos.

Para adaptarnos y sacar partido a la vertiginosa evolución  de los datos, necesitamos un modelo organizativo como base sólida, y mucho mucho trabajo en equipo por parte del negocio y de los equipos involucrados en el gobierno y la gestión de los datos.
Para adaptarnos y sacar partido a la vertiginosa evolución de los datos, necesitamos un modelo organizativo como base sólida, y mucho mucho trabajo en equipo por parte del negocio y de los equipos involucrados en el gobierno y la gestión de los datos.
  1. Sin duda, todo el ámbito de gobierno del dato requiere de herramientas y de tecnología, además de método y procesos, ¿alguna herramienta que quieras mencionar?

Una de las herramientas principales que nos ayuda a poner en común ese entendimiento único del dato son las soluciones de Business Glossary donde la tendencia es ir a entornos colaborativos donde la gente pueda participar, pueda discutir y debatir, no sólo los roles de datos (como data owners, data stewards, data curators, etc.), sino que haya una comunidad, incluso que llevemos la toma de decisión de cuál es la definición correcta del dato lo más cerca posible de quien más la utilice.

Son entornos colaborativos, con foros de discusión, flujos de aprobación, etc. Aquí tenemos soluciones de mercado, como infomá Axon, Collibra, Alation, erwin Data Intelligence, IBM Watson Knowledge Catalog... por nombrar algunas soluciones transversales, soluciones con pedigrí español como Anjana Data y Truedat, y otras más ligadas a ecosistemas específicos, como Azure Purview.

Muy relacionada con la anterior, tenemos las soluciones de catalogación de datos o Data Catalogs, que nos permiten catalogar activos de datos de múltiples tecnologías, relacionarlos con elementos del Business Glossary, metadatarlos y visualizar su linaje, soportando catalogar desde bases de datos tradicionales a soluciones cloud native, como Snowflake, plataformas Big Data como Cloudera, soluciones de ETL e integración de datos como Informatica o Talend, soluciones de visualización de datos como Power BI, Tableau, Qlik o MicroStrategy, o, incluso, otros catálogos de datos (actuando como catálogos de catálogos).

Con este tipo de soluciones podemos llegar a saber, para un atributo en una entidad de datos, con qué término de negocio se relaciona, a qué dominio funcional pertenecer, con qué otras entidades está relacionada a través de procesos de integración de datos, en qué informes de qué soluciones de visualización aparece, etc.

Este tipo de visión holística es muy interesante, aunque también puede llegar a tener un elevado coste de integración, además de costes de licenciamiento. De hecho, todos los productos anteriores son también catálogos de datos (cada uno con sus capacidades de integración, fortalezas y debilidades, capacidades adicionales como por ejemplo la aspectos de Data Privacy), a excepción de Informatica, cuya solución se llama EDC (Enterprise Data Catalog).

De nuevo, tenemos soluciones muy ligadas a la catalogación de un ecosistema particular de datos, como Google Data Catalog, AWS Glue Data Catalog, o el reciente Databricks Unity Catalog.

En definitiva, podemos afirmar que desde el 2019, cuando Gartner confirmó en uno de sus estudios que Data catalog is the new black, este tipo de soluciones está cogiendo mucha tracción en el mercado, e incorporando avances significativos en cuanto a automatización de sus funciones mediante técnicas de IA.

Las soluciones de catalogación de datos y, en particular, los nuevos Data Marketplaces, facilitan enormemente localizar los datos que nos son de utilidad en nuestros cada vez mayores ecosistemas de datos.
Las soluciones de catalogación de datos y, en particular, los nuevos Data Marketplaces, facilitan enormemente localizar los datos que nos son de utilidad en nuestros cada vez mayores ecosistemas de datos.

Además de estos clásicos, están surgiendo en los últimos años algunas soluciones de linaje transversales muy interesantes como Manta u Octopai, cuya propuesta de valor principal es lograr un linaje de datos más allá de una plataforma en particular.

Llevando más allá las capacidades de Data Discovery de estos catálogos, es muy interesante el concepto de Data Marketplace que están incorporando algunas de estas soluciones de Data Catalog (o incluso tecnologías como Snowflake), que permiten no sólo buscar mis activos de datos a nivel organizativo, sino establecer flujos de “adquisición y compra” de un conjunto de datos, facilitando en contextos organizativos complejos la gestión del acceso al dato.

Y en esta industria que no cesa de reinventarse y especializarse, cabe señalar que está identificando también a este tipo de soluciones que nos permiten comprender el dato dentro del área de Data Literacy o Alfabetización de datos, término usado desde hace años pero que está tomando especial relevancia últimamente.

Por otra parte, no hay que olvidar a todo un clásico, estrictamente parte del mundo de la gestión de datos, no del gobierno, aunque muy guiado por éste, y es el ámbito de las herramientas de calidad de datos, que ya llevan mucho tiempo en el mercado y que nos permiten definir reglas de calidad asociadas a nuestros datos (idealmente como parte del proceso de caracterización del dato), instrumentarlas en nuestros procesos de calidad y monitorizar el grado de cumplimiento por parte de nuestros datos.

Si bien es cierto que muchas de estas herramientas tradicionalmente han ido ligadas a soluciones de integración de datos, como las de Informatica, SAS o IBM, también hay soluciones transversales como la de Ataccama, y es un área donde no deja de resultar interesante diseñar nuestro propio framework de calidad (desde cero o apoyándose en frameworks como Deequ o Apache Griffin), o incluso introducir la calidad guiada por metadatos en nuestras piezas de una arquitectura metadata-driven, y utilizar la IA no sólo para el perfilado de datos, sino también para generar automáticamente reglas de calidad.

Sin olvidar las prácticas que nunca han cambiado, como el llevar las reglas de calidad a la etapa más temprana del ciclo de vida del dato, para evitar el clásico problema de crap in - crap out.

De nuevo, aunque formalmente sea parte del mundo de la gestión de datos, y no específicamente del gobierno, las soluciones de Data Sharing están viendo un elevado crecimiento en los últimos años. Snowflake, y más recientemente Amazon Redshift, Azure y Databricks han incorporado capacidades que facilitan compartir los datos con terceros de forma controlada.

Es importante, desde la perspectiva de gobierno del dato, tanto aprovechar estas capacidades para sacar más valor a nuestros datos (por ejemplo, compartiendo data sets entre distintas unidades de negocio de una compañía), como establecer los mecanismos de control a nivel funcional y técnico que garanticen la seguridad, privacidad y trazabilidad en el acceso a estos datos.

Y, finalmente, como mención honorable, dentro de este mundo del gobierno y la gestión del dato podemos mencionar las soluciones de Data Modeling, como erwin Data Modeler, SAP PowerDesigner, con las que podemos introducir buenas prácticas, estándares de modelado y nomenclatura, dominios de datos en los que reutilizar la caracterización del dato, glosarios de términos, y otras capacidades que nos pueden facilitar alinear esa visión conceptual de nuestros términos de negocio con nuestros modelos conceptuales, lógicos y físicos de datos, además de automatizar el ciclo de vida de los modelos e integrarlo con nuestras prácticas de DataOps y Data Change Management.

Conclusión

Estas son algunas de las principales ideas y puntos fuertes que hemos extraído de la charla con Alberto sobre el gobierno del dato. Si has llegado hasta aquí y necesitas más información sobre el tema y profundizar (aún) más, escucha en nuestro podcast, Apasionados por la Tecnologías, la conversación completa ¡No te la pierdas!

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete