Así era antes

En el vertiginoso panorama digital actual, la forma en que interactuamos con la tecnología está en constante evolución. Las interacciones basadas en voz se han convertido en una parte integral de nuestra vida diaria, desde preguntar a los asistentes virtuales sobre el clima hasta navegar por complejos menús de atención al cliente. Sin embargo, a pesar de los importantes avances, estos voicebots, construidos principalmente sobre la tecnología tradicional de procesamiento de lenguaje natural (NLP), a menudo no logran comprender a los usuarios/as, lo que genera frustración y, en última instancia, rechazo a su uso.

En Paradigma Digital, estamos comprometidos a explorar la vanguardia de la innovación tecnológica para ofrecer soluciones transformadoras a nuestros clientes. Es por eso que nos entusiasma profundizar en el último avance de OpenAI: Realtime API. Presentada el 1 de octubre de 2024, esta herramienta revolucionaria promete redefinir las interacciones basadas en voz al permitir la comunicación de voz a voz sin la dependencia tradicional de la conversión a texto. Al preservar los matices del habla humana, Realtime API abre un nuevo mundo de posibilidades para una IA conversacional más empática, precisa y flexible.

En este post exploramos cómo Realtime API se distingue de los modelos tradicionales de NLP, sus características clave y el impacto transformador que puede tener en diversas industrias. Acompáñanos mientras analizamos este emocionante desarrollo y reflexionamos sobre lo que significa para el futuro de la interacción humano-computadora.

Presentamos Realtime API de OpenAI

Casi dos años después de hacer disponible ChatGPT al público, OpenAI ha presentado Realtime API, una herramienta innovadora basada en voz capaz de realizar interacciones de voz a voz. A diferencia de los modelos anteriores que dependían de convertir el habla en texto y luego de nuevo en voz, este nuevo modelo opera sin ningún intermediario basado en texto. Al eliminar el paso de conversión a texto, retiene características fonéticas cruciales como la entonación, la prosodia, el tono, el ritmo y el acento. Este avance aborda problemas como la mala interpretación del sarcasmo y la dependencia de configuraciones del dispositivo para obtener respuestas precisas.

Un ejemplo, si un usuario pregunta: "¿Dónde está Córdoba?", los sistemas tradicionales podrían tener dificultades para determinar si el usuario/a se refiere a Córdoba en Argentina o en España. Realtime API, sin embargo, puede detectar el acento —argentino o español—y proporcionar una respuesta contextualmente apropiada. Más allá del reconocimiento de acentos, conectar Realtime API a LLMs como GPT-4o mejora sus capacidades de comprensión y su base de conocimiento general. Veamos en detalle cómo Realtime API mejora las herramientas tradicionales de NLP basadas en voz.

Comparando modelos tradicionales de NLP con Realtime API

  1. Preservación de rasgos fonéticos

Los modelos tradicionales de NLP convierten el habla en texto mediante la transcripción de voz a texto, lo que inevitablemente elimina características fonéticas vitales como el tono, la emoción, el énfasis, la entonación y el ritmo. Esta pérdida puede llevar a malinterpretaciones, especialmente en el análisis de sentimientos. Por ejemplo, si un cliente comenta sarcásticamente: "¡Está genial!", la transcripción captura las palabras pero pierde el tono sarcástico. Sin estos matices vocales, el sistema podría interpretar la declaración de manera literal, lo que resultaría en respuestas inadecuadas o poco útiles.

En contraste, Realtime API de OpenAI procesa directamente las entradas y salidas de audio, preservando estas características fonéticas. Entiende no solo las palabras, sino también la manera en que se dicen, lo que permite interacciones más empáticas y precisas. Si un usuario/a suspira y dice: "Supongo que lo intentaré de nuevo más tarde", Realtime API puede detectar la decepción en la voz del usuario/a. El sistema podría entonces responder de manera empática, como: "Lamento que estés teniendo dificultades. ¿Hay algo en lo que te pueda ayudar ahora?". Este procesamiento directo permite un análisis de sentimientos más preciso y habilita a la IA a adaptar respuestas que reconozcan tanto el contenido como el estado emocional del usuario/a, generando interacciones más naturales y empáticas.

  1. Conversaciones naturales y flexibles

Las conversaciones con modelos tradicionales de NLP están limitadas a guiones predefinidos y flujos conversacionales fijos. Se espera que los usuarios/as sigan indicaciones específicas y proporcionen respuestas que encajen en categorías o intents predeterminados. Cualquier desviación puede confundir al sistema, lo que resulta en respuestas genéricas o irrelevantes como: "Lo siento, no te he entendido". Si un usuario/a pregunta: "¿Puedo cambiar mi vuelo para el próximo martes y también conseguir un asiento con ventana?", un sistema tradicional suele reconocer solo un intent, por ejemplo la solicitud de cambiar la fecha del vuelo, y omitirá la preferencia por el asiento, lo que requeriría indicaciones adicionales y prolongará la interacción. Actualizar estos sistemas para manejar nuevas consultas implica un esfuerzo significativo de desarrollo para crear nuevas intenciones y reentrenar el modelo.

Realtime API ofrece capacidades conversacionales no deterministas (lo que se puede entender también como una desventaja en determinados supuestos). Los usuarios/as pueden entablar diálogos abiertos, hacer preguntas de seguimiento y cambiar de tema de manera natural, al igual que en una conversación con un agente humano. En el ejemplo anterior, Realtime API entendería tanto la solicitud de cambiar la fecha del vuelo como la preferencia por un asiento de ventana en una sola interacción. Puede manejar consultas inesperadas y cambios de contexto de manera fluida, reduciendo la fricción en la experiencia del usuario/a. Esta flexibilidad elimina la necesidad de que los desarrolladores/as actualicen constantemente las intenciones y los flujos de diálogo, permitiendo que la IA se adapte a las necesidades del usuario/a en tiempo real.

  1. Reducción de la latencia

Los modelos tradicionales de NLP tienen múltiples pasos de procesamiento secuenciales: capturar la entrada de audio, convertir el habla en texto, realizar el reconocimiento de intenciones, generar una respuesta basada en texto y luego convertir ese texto nuevamente en voz mediante la síntesis de texto a voz. Cada paso introduce latencia, acumulando retrasos que pueden interrumpir el flujo natural de la conversación. Por ejemplo, las pausas notables entre la pregunta del usuario/a y la respuesta del asistente pueden hacer que las interacciones se sientan lentas, lo que provoca que los usuarios/as se impacienten o repitan sus preguntas.

Realtime API establece una conexión persistente a través de WebSocket que permite la transmisión de entradas y salidas de audio en tiempo real, sin texto. Esta comunicación directa de audio a audio reduce significativamente la latencia, permitiendo que las respuestas se entreguen casi de manera instantánea. Cuando un usuario/a pregunta, la IA puede comenzar a responder de inmediato, con retrasos reducidos. Esta comunicación se asemeja a la velocidad de una conversación humana, mejorando la experiencia del usuario/a al hacer que las interacciones se sientan más fluidas y naturales.

  1. Mejorando el entendimiento gracias a los LLMs

Los modelos tradicionales de NLP están limitados por su dependencia de intents y respuestas predefinidas. Son efectivos para manejar consultas rutinarias, pero tienen dificultades con preguntas inesperadas, estructuras lingüísticas complejas, expresiones idiomáticas o solicitudes de información fuera de su base de conocimientos programada. Por ejemplo, si un huésped de un hotel pregunta: "¿Podrías decirme cuál es la estación de tren más cercana y algún monumento histórico que valga la pena visitar cerca?", un sistema tradicional seguramente no tenga esta información disponible de inmediato, ya que no fue programado con un conocimiento extenso sobre servicios locales o atracciones. Abordar estas limitaciones requiere un gran esfuerzo de desarrollo para crear nuevas intenciones e integrar fuentes de datos adicionales, lo que consume tiempo y recursos.

Aprovechando la comprensión avanzada del lenguaje y la vasta base de conocimientos de GPT-4o, Realtime API comprende una amplia gama de temas y contextos sin necesidad de una programación extensa previa. Puede interpretar oraciones complejas, entender modismos, reconocer solicitudes indirectas y proporcionar información detallada extraída de su amplio conjunto de datos de entrenamiento. En el ejemplo del hotel, Realtime API entendería la consulta del huésped y dónde está ubicado y podría responder: "¡Por supuesto! La estación de tren más cercana es la Estación Central, a solo 10 minutos a pie del hotel. En cuanto a monumentos históricos, te podría interesar visitar la Catedral de la Ciudad Vieja o el Museo del Patrimonio, ambos a poca distancia a pie". Esta profunda comprensión y acceso a un conocimiento más amplio permiten que el asistente brinde respuestas precisas y útiles, gestionando de manera efectiva consultas diversas y complejas que van más allá de las limitaciones de los modelos tradicionales.

  1. Poliglotismo y reconocimiento de acentos

Dado que los modelos tradicionales de NLP suelen estar codificados para usarse en inglés y tal vez en uno o dos idiomas más, tienen dificultades con la diversidad lingüística y las variaciones de acento, lo que genera malentendidos o la necesidad de grandes esfuerzos de localización. Pueden requerir modelos separados o ajustes significativos para admitir varios idiomas, y aun así, los acentos regionales pueden representar un desafío. Por ejemplo, un usuario que hable inglés con un acento fuerte escocés podría no ser entendido correctamente por un sistema entrenado principalmente en inglés estadounidense, lo que resultaría en interpretaciones erróneas frecuentes.

Realtime API admite más de 50 idiomas y ha mejorado significativamente su rendimiento con acentos. Su capacidad para detectar y adaptarse a diferentes acentos garantiza una comunicación precisa entre bases de usuarios diversas. Por ejemplo, si un usuario francófono formula una pregunta, Realtime API puede interpretar la consulta con precisión y responder adecuadamente en francés, incluso si todos los datos de los que bebe están en otro idioma. Esta capacidad no solo mejora la satisfacción del usuario/a, sino que también amplía la accesibilidad de la IA basada en voz a audiencias globales sin necesidad de localizaciones extensas.

Eficiencia en el desarrollo

Agregar nuevas funcionalidades o gestionar consultas adicionales de usuarios/as en modelos tradicionales de NLP requiere un considerable trabajo de desarrollo. Los equipos deben crear nuevos intents, diseñar flujos de diálogo y recopilar y anotar datos de entrenamiento para cada nuevo escenario. Este proceso es laborioso y retrasa la implementación de actualizaciones o nuevas características. Para las empresas, esto significa mayores costos y un mayor tiempo de salida al mercado para las mejoras.

Con Realtime API, los desarrolladores/as pueden construir experiencias conversacionales ricas y naturales con una única llamada a la API. La comprensión y adaptabilidad inherente del modelo reducen la necesidad de crear manualmente intents y realizar entrenamientos extensivos. Por ejemplo, un desarrollador que esté creando un chatbot de soporte al cliente puede aprovechar Realtime API para gestionar una amplia gama de consultas sin tener que especificar cada posible intención. Este proceso de desarrollo simplificado acelera la implementación de nuevas funciones, reduce costos y permite que los desarrolladores/as se centren en mejorar la experiencia del usuario en lugar de gestionar configuraciones complejas en el backend.

He aquí una comparación general de ambos enfoques:

Modelo de voz hecho con NLP Realtime API de OpenAI
Rasgos fonéticos y análisis de sentimiento Convierte el habla en texto, perdiendo matices vocales como el tono, la emoción y el énfasis; esto puede llevar a malinterpretaciones, especialmente en el análisis de sentimientos. Procesa entradas y salidas de audio directamente, preservando las características fonéticas; entiende no solo las palabras, sino cómo se dicen, lo que permite interacciones más empáticas.
Flexibilidad Limitado a guiones predefinidos y flujos conversacionales fijos; las desviaciones pueden confundir al sistema, requiriendo un esfuerzo significativo para actualizar las intenciones y los flujos de diálogo. Ofrece capacidades conversacionales dinámicas sin flujos predefinidos; los usuarios/as pueden entablar diálogos abiertos, con la IA adaptándose en tiempo real y accediendo a bases de conocimiento más amplias.
Latencia Varios pasos de procesamiento introducen retrasos (conversión de voz a texto, reconocimiento de intenciones, generación de respuestas, conversión de texto a voz), interrumpiendo el flujo de la conversación. Establece una conexión persistente mediante WebSocket para la transmisión en tiempo real de entradas y salidas de audio; reduce significativamente la latencia, mejorando la experiencia del usuario.
Soporte adicional Limitado por intenciones y respuestas predefinidas; tiene dificultades con consultas inesperadas y estructuras lingüísticas complejas; carece de acceso a una base de conocimientos extensa. Aprovecha la comprensión avanzada del lenguaje de GPT-4o y su vasta base de conocimientos; comprende una amplia gama de temas y contextos sin necesidad de una programación extensa.
Poliglotismo y reconocimiento de acentos Tiene dificultades con la diversidad lingüística además de idiomas para los que no ha sido preparado y las variaciones de acento; a menudo requiere una localización extensa y aún puede malinterpretar acentos no estándar. Admite de momento más de 50 idiomas y se adapta a diferentes acentos; comunica con precisión entre diversas bases de usuarios sin necesidad de esfuerzos extensos de localización.
Esfuerzos de desarrollo Agregar nuevas funcionalidades requiere un trabajo de desarrollo significativo, incluyendo la creación de nuevas intenciones y datos de entrenamiento; aumenta los costos y retrasa la implementación. Los desarrolladores/as pueden crear experiencias conversacionales enriquecidas con una sola llamada a la API; la comprensión inherente reduce la necesidad de crear intenciones manualmente y de realizar entrenamientos extensivos.

Casos de uso y aplicaciones

Para esta sección, hemos generado una lluvia de ideas sobre posibles aplicaciones de Realtime API y ejemplos de casos de uso en los que se puede utilizar.

Atención al cliente

Realtime API permite el desarrollo de asistentes virtuales sofisticados, capaces de entender y resolver consultas de clientes de manera más eficaz. Al interpretar matices vocales como el tono y la emoción, estos asistentes pueden ofrecer respuestas empáticas y tomar acciones apropiadas, como procesar pedidos o proporcionar información personalizada. Esto mejora la satisfacción del cliente y reduce la carga de trabajo de los agentes humanos.

Ejemplo: Healthify, una aplicación de nutrición y coaching fitness, utiliza Realtime API para facilitar conversaciones naturales con su entrenador de IA. Los usuarios/as pueden discutir sus hábitos alimenticios y metas fitness de manera conversacional. El modelo entiende el contexto emocional—detectando, por ejemplo, si un usuario suena desanimado—y responde con palabras de aliento y consejos personalizados. Cuando es necesario un soporte más personalizado, dietistas humanos intervienen sin problemas, asegurando que los usuarios/as reciban una atención integral.

Alojamiento

Realtime API transforma los servicios de atención al huésped en la industria de alojamiento y hospitalidad al permitir interacciones más personalizadas y eficientes. Los hoteles y resorts pueden desplegar conserjes impulsados por IA que comprendan y respondan a las solicitudes de los huéspedes en tiempo real, capturando los matices del habla para ofrecer asistencia y recomendaciones a medida.

Ejemplo: StayEase Hotels integra la API Realtime en su servicio de conserje virtual. Los huéspedes pueden realizar solicitudes complejas, como: "Me siento un poco desfasado por el jet lag, ¿podrías programar una llamada de despertador para las 10 AM y recomendarme un lugar tranquilo para desayunar?" El conserje de IA detecta la fatiga del huésped y su preferencia por un entorno tranquilo, programando la llamada de despertador y sugiriendo opciones de comedor adecuadas. Si una huésped pregunta: "¿Hay alguna posibilidad de un check-out tardío? Tengo una reunión que se alarga", el asistente entiende la urgencia y acomoda la solicitud sin problemas, mejorando la experiencia general de la huésped.

Airlines

Las aerolíneas pueden mejorar significativamente el servicio al cliente y la eficiencia operativa al aprovechar la API Realtime para interacciones intuitivas y receptivas. Desde modificaciones de reservas hasta actualizaciones de vuelos en tiempo real, la API permite una experiencia de viaje fluida y personalizada a través de conversaciones naturales por voz.

Ejemplo: FlightVoice usa Realtime API para su línea de soporte al cliente. Cuando los pasajeros/as llaman con solicitudes como: "Necesito reprogramar mi vuelo para el próximo viernes y asegurarme de que mi preferencia de comida vegetariana esté registrada", el asistente de IA comprende tanto el cambio de vuelo como la solicitud de comida específica en una sola interacción. Si un viajero suena ansioso y pregunta: "¿Se ha anunciado la información de la puerta de embarque para el vuelo 123? Tengo una conexión muy ajustada", el asistente detecta la preocupación en su voz y proporciona actualizaciones rápidas y tranquilizadoras, incluyendo direcciones hacia la puerta y tiempos estimados de caminata. Este servicio empático y eficiente reduce el estrés y mejora la satisfacción de los pasajeros/as.

Asistentes virtuales

Los asistentes virtuales personales se vuelven más versátiles e intuitivos con Realtime API, capaces de gestionar tareas complejas y comprender comandos matizados sin necesidad de guiones rígidos. Pueden encargarse de la programación, proporcionar información detallada y adaptarse a las preferencias del usuario/a a través de interacciones naturales y conversacionales.

Ejemplo: HomeEase, una aplicación de gestión del hogar inteligente, integra Realtime API para mejorar las capacidades de su asistente virtual. Los usuarios/as pueden controlar dispositivos del hogar, establecer recordatorios o preguntar sobre el clima mediante un discurso conversacional. Por ejemplo, un usuario podría decir: "Tengo frío, ¿podrías ajustar el termostato y decirme si va a llover esta noche?" El asistente entiende la solicitud matizada, ajusta la temperatura y proporciona una actualización meteorológica, todo en una interacción fluida.

Accesibilidad

Para personas con discapacidades, Realtime API mejora las herramientas de accesibilidad al proporcionar interfaces más naturales y receptivas que se adaptan a diversas necesidades. Permite que las aplicaciones controladas por voz comprendan y respondan a usuarios/as con diferentes patrones de habla o acentos, mejorando la independencia y la calidad de vida.

Ejemplo: Asísteme, una aplicación diseñada para usuarios/as con discapacidades motrices, utiliza Realtime API para ofrecer control por voz sobre varios dispositivos y aplicaciones. Los usuarios/as pueden realizar tareas como enviar mensajes, navegar por internet o controlar dispositivos del hogar inteligente usando un habla natural. La capacidad de la API para reconocer diferentes patrones de habla y acentos asegura que los usuarios/as con discapacidades del habla o acentos no estándar sean comprendidos con precisión, haciendo la tecnología más accesible.

Información técnica

Realtime API de OpenAI introduce un enfoque transformador para las interacciones de IA basadas en voz, al habilitar experiencias conversacionales multimodales y de baja latencia. A diferencia de las API tradicionales que procesan el habla convirtiéndola en texto y luego de nuevo en voz, Realtime API opera a través de una conexión persistente mediante WebSocket, permitiendo la transmisión en tiempo real de datos de audio y texto. Esta arquitectura basada en eventos y con estado mantiene el contexto de las interacciones a lo largo de la sesión, imitando de cerca las conversaciones humanas naturales.

En el núcleo de Realtime API está el modelo avanzado GPT-4o, específicamente la versión gpt-4o-realtime-preview, que impulsa sus sofisticadas capacidades de audio. Al procesar directamente las entradas y salidas de audio, la API conserva características fonéticas cruciales como la entonación, la emoción, el énfasis y el ritmo. Esto da lugar a interacciones más naturales y matizadas, con modelos capaces de expresar una gama de emociones, reír, susurrar y adherirse a instrucciones tonales proporcionadas por los desarrolladores. La capacidad de ajustar la salida de voz mejora la personalización y el compromiso en las experiencias de usuario.

Realtime API también admite la llamada a funciones, lo que permite a los asistentes de voz realizar acciones dinámicas como realizar pedidos, recuperar datos específicos de usuarios/as o integrarse con servicios externos. Los desarrolladores/as pueden definir estas funciones y pasarlas al modelo en un formato similar al de la API de Chat Completions. Esta característica permite que el asistente invoque funciones según sea necesario durante la conversación, ampliando las aplicaciones prácticas y la versatilidad de los asistentes de voz.

Además, la API está diseñada para ofrecer una salida multimodal simultánea, proporcionando tanto respuestas de audio como de texto. Mientras que la salida de audio ofrece un flujo conversacional natural, la salida de texto es valiosa para tareas como moderación, registro o visualización de transcripciones para los usuarios/as. La combinación de comunicación de baja latencia, gestión de sesiones con estado y comprensión avanzada del lenguaje establece un nuevo estándar para las tecnologías de IA conversacional. Al aprovechar estas innovaciones técnicas, Realtime API permite a los desarrolladores/as crear aplicaciones más inmersivas, receptivas e intuitivas que acortan la brecha entre la tecnología y la interacción humana.

Para obtener más información sobre los detalles técnicos de este lanzamiento, visita el sitio web oficial.

Seguridad y privacidad

OpenAI prioriza la seguridad y la privacidad en el despliegue de Realtime API. Emplea protecciones de seguridad en múltiples capas, que incluyen procesos de monitoreo automatizado y revisión humana, para mitigar el riesgo de mal uso. Este sólido marco de seguridad aprovecha la misma infraestructura de seguridad de audio utilizada en el modo de voz avanzado de ChatGPT (actualmente no disponible en la Unión Europea), garantizando salvaguardas consistentes y confiables en todas las plataformas. Los desarrolladores/as están obligados a cumplir con estrictas políticas de uso que prohíben el spam, la desinformación y las actividades perjudiciales. La transparencia con los usuarios/as sobre las interacciones con IA es obligatoria, a menos que sea evidente por el contexto, promoviendo un uso ético y generando confianza.

Además, OpenAI se compromete a cumplir con estrictos compromisos de privacidad; no utiliza los datos de Realtime API para entrenar modelos sin permiso explícito, garantizando así un nivel de privacidad empresarial para todos los usuarios/as.

Desarrollos futuros

OpenAI planea mejorar Realtime API con varias características clave que ampliarán aún más sus capacidades y usabilidad. Un desarrollo importante es la introducción de modalidades expandidas; más allá de la voz, las futuras iteraciones admitirán entradas de visión y video, ampliando el alcance de las experiencias interactivas y permitiendo aplicaciones más inmersivas y versátiles. Para adaptarse a implementaciones más grandes y satisfacer la creciente demanda, los límites de tasa se incrementarán progresivamente, lo que permitirá a los desarrolladores/as gestionar de manera más efectiva sesiones simultáneas.

Además, OpenAI proporcionará soporte oficial de SDK al integrar Realtime API con sus SDKs de Python y Node.js. Esta integración agilizará los procesos de desarrollo, facilitando a los desarrolladores/as la implementación de la API en sus aplicaciones. La introducción de la caché de prompts es otra mejora planificada, que permitirá reprocesar turnos de conversación anteriores a una tarifa reducida, mejorando la eficiencia y reduciendo los costos operativos.

Por último, la expansión del modelo incluirá soporte para modelos como GPT-4o mini, proporcionando opciones adicionales para los desarrolladores/as. Esto permitirá que una gama más amplia de aplicaciones aprovechen las capacidades avanzadas de Realtime API, adaptándose a diferentes requisitos de rendimiento y recursos. Estas mejoras planificadas demuestran el compromiso de OpenAI con la mejora continua de Realtime API, empoderando a los desarrolladores/as para crear experiencias conversacionales más innovadoras y potentes.

Conclusión

Realtime API de OpenAI representa un avance significativo en la IA generativa basada en voz. Al abordar las limitaciones de los modelos tradicionales de NLP, como la pérdida de características fonéticas, los guiones rígidos y la alta latencia, Realtime API ofrece una experiencia de usuario más natural, flexible e intuitiva. Su capacidad para comprender el contexto, preservar los matices vocales y participar en conversaciones dinámicas establece un nuevo estándar para la interacción entre humanos y computadoras.

Este avance no solo mejora aplicaciones existentes como el soporte al cliente y el aprendizaje de idiomas, sino que también abre puertas a usos innovadores en accesibilidad y más allá. A medida que OpenAI continúa refinando Realtime API y ampliando sus capacidades, los desarrolladores/as tienen la oportunidad de crear aplicaciones más inmersivas y receptivas que acorten la brecha entre la tecnología y la interacción humana.

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete