¿Buscas nuestro logo?
Aquí te dejamos una copia, pero si necesitas más opciones o quieres conocer más, visita nuestra área de marca.
Conoce nuestra marca.¿Buscas nuestro logo?
Aquí te dejamos una copia, pero si necesitas más opciones o quieres conocer más, visita nuestra área de marca.
Conoce nuestra marca.dev
3 autores 30/01/2024 Cargando comentarios…
Como vimos en el anterior episodio de nuestro podcast “Cómo conocí a nuestro cloud”, BigQuery es una gran herramienta a la hora de trabajar con nuestros datos, sin importar lo grande que sea su volumen podemos ejecutar queries para hacer consultas o transformaciones de los mismos.
El problema viene cuando queremos enlazar varias queries para que se ejecuten de forma ordenada y controlada. Para solucionar esto sirve Dataform, un producto que nos permite llevar a BigQuery al próximo nivel y en este episodio vemos cómo funciona.
Dataform es un servicio diseñado para usar con BigQuery y nos ayuda a generar pipelines de transformación de datos o generación de tablas usando como base queries.
Para lograr este objetivo, se basa en determinadas características como el uso de un repositorio git para guardar los ficheros o el uso de ficheros SQLX y JS para definir nuestros pipelines.
SQLX es una extensión del lenguaje SQL y, por tanto, no supondrá un gran cambio para los que están acostumbrados a él, pero añade interesantes características como la definición de dependencias entre queries para su ejecución, el uso de referencias y variables en nuestras queries.
Además podemos usar Javascript, uno de los lenguajes de programación más extendidos gracias a su facilidad de uso y potencia. Con la unión de SQLX y Javascript no tendremos límites a la hora de trabajar con nuestros datos.
Al estar basado en repositorios tenemos todas las ventajas de trabajar con git, ayudándonos a poner orden en ese montón de queries guardadas con la funcionalidad básica de BigQuery.
Otro aspecto importante a la hora de poder desarrollar de una manera más escalable y robusta es el uso de aserciones para validar nuestras pipelines.
Todo esto tiene muy buena pinta, pero no podemos evitar preguntarnos si no podemos hacer lo mismo o similar con otros productos de Google Cloud como DataPrep, DataFusion, DataFlow y demás; y es que con el paso del tiempo cada vez hay más productos para realizar la misma funcionalidad de manera distinta, pero si quieres saber cómo terminó el debate no te queda otra opción que escuchar este episodio completo ;)
Puedes escucharlos en las principales plataformas de podcast: Ivoox, Spotify, YouTube, Google Podcast, Apple Podcast y Amazon Music.
Imagen de portada: Unsplash
Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.
Cuéntanos qué te parece.