¿Quieres estar al día de lo que sucede en el universo Cloud? ¿Te gustaría aprender a usar sus servicios? Si la respuesta a alguna de estas preguntas es afirmativa, y además te gustaría hacerlo de forma amena, te invitamos a escuchar 'Cómo conocí a nuestro Cloud, el podcast de Goodly (el equipo especializado en Google Cloud de Paradigma).

En estos episodios compartiremos de forma clara y transparente nuestras experiencias y opiniones sobre la nube de Google. Además, descubriremos sus últimos lanzamientos y qué posibilidades te ofrecen para desarrollar tu producto digital.

En este episodio, “Big Data sin infra (Dataflow o dataproc)”, hablaremos sobre cómo hacer Big Data en GCP y las opciones que tenemos: DataProc y DataFlow. Dos integrantes del equipo de Goodly, Andrés Macarrilla y Andrés Navidad, nos explican las ventajas, riesgos y otros datos interesantes sobre estos productos.

Recuerda que puedes escuchar el podcast en diferentes plataformas: Ivoox, Spotify, Apple Podcast y Google Podcast. O si lo prefieres, también está disponible en nuestro canal de YouTube.

¿A qué esperas para escucharlo?

En este episodio hablaremos sobre cómo hacer Big Data en GCP y las opciones que tenemos: DataProc y DataFlow.

Partimos de la base de que con las dos tecnologías puedes hacer casi lo mismo, por lo que esta comparativa va mucho más orientada a decidir cuando debemos elegir una u otra. Al final a la hora de elegir la clave está en los requisitos que tenemos. Son los KPIs de los casos de uso los que van a hacer que finalmente te decidas por una tecnología u otra.

Dataproc es un conjunto de utilidades que nos permite manejar Hadoop, Spark y todo el ecosistema en la nube de una manera sencilla. pero manteniendo el control por nuestra parte. Es un servicio gestionado con tecnologías del ecosistema Hadoop (Hive, HDFS), Spark y, en este caso, Google nos simplifica la gestión y el mantenimiento de la infraestructura fisica y la integración de los diferentes servicios.

Puntos fuertes:

Dataflow podemos definirlo como una solución que nos va a permitir hacer procesamiento de datos tanto en streaming como en batch y que además es serverless. Es un servicio totalmente gestionado (nos referimos a no tener que gestionar infraestructura) que bajo apache Beam, intenta unificar el modelo de procesamiento streaming y batch bajo una misma API. Adicionalmente, permitiría correr el proceso bajo diferentes Runners (Flink, Spark, Samza)

Puntos fuertes.

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete