Poco a poco el serverless se está extendiendo a más y más casos de uso: procesamiento, bases de datos, sistemas de mensajería o de CI/CD... son solo algunos de los ejemplos.

El procesamiento de grandes volúmenes de datos era uno de los campos que aún no había sido colonizado por el serverless, pero parece que esto está a punto de cambiar.

En este capítulo hablamos de Dataproc Serverless, que permite ejecutar trabajos de Spark sin necesidad de tener un cluster.

¿Qué es Spark y qué es Dataproc?

Spark es un framework de procesamiento escalable, sucesor de Hadoop MapReduce aunque la idea es la misma. Tiene gran aceptación en la comunidad Big Data al ser uno de los frameworks más utilizados y queridos.

Cloud Dataproc es la manera de tener clusters gestionados por Google Cloud para la ejecución de trabajos Hadoop MapReduce, Hive, Spark, Flink... Gracias a Dataproc podemos levantar clusters de manera sencilla y económica.

El uso del serverless para la ejecución de nuestras cargas Spark nos ofrece ciertas ventajas como el poder abstraernos de la infraestructura, tener capacidad de cómputo inmediata o una gran flexibilidad de costes.

El nuevo Dataproc Serverless permite la ejecución de cargas Spark sin tener que preocuparnos por otra cosa distinta al código y los datos, lo que como desarrolladores/as, es algo que agradecer.

Si quieres saber más sobre este producto, cuál es su experiencia al usarlo y sus puntos menos fuertes, no te pierdas este episodio de "Cómo conocí a nuestro Cloud".

¿Dónde escuchar todos nuestros podcast?

Puedes escucharlos en las principales plataformas de podcast: Ivoox, Spotify, YouTube, Google Podcast, Apple Podcast y Amazon Music.

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete