OpenAI lanza sus nuevos modelos de audio para potenciar agentes de voz inteligentes

La empresa OpenAI ha presentado esta semana su nueva generación de modelos de audio en la API, con avances significativos en transcripción y síntesis de voz que prometen revolucionar la interacción con agentes virtuales. Estos nuevos modelos de reconocimiento de voz y texto a voz ya están disponibles para desarrolladores de todo el mundo, ofreciendo mayor precisión, personalización y versatilidad.

Los modelos de transcripción de voz a texto, denominados gpt-4o-transcribe y gpt-4o-mini-transcribe, superan a sus predecesores (como Whisper v2 y v3) en términos de precisión y fiabilidad. Según OpenAI, estos modelos logran una tasa de error de palabras (WER) inferior, lo que se traduce en transcripciones más exactas, incluso en entornos ruidosos, con distintos acentos y variaciones en la velocidad del habla. Esta mejora los posiciona como una herramienta idónea para centros de atención telefónica, transcripción de reuniones y aplicaciones empresariales que requieren un alto nivel de exactitud.

Además, la compañía ha lanzado gpt-4o-mini-tts, su nuevo modelo de texto a voz que incorpora la posibilidad de ajustar el tono y la forma en que el agente habla. Así, los desarrolladores podrán pedir al modelo que adopte un estilo específico, como el de un agente de atención al cliente empático o un narrador expresivo, abriendo nuevas posibilidades en la creación de experiencias sonoras más humanas y adaptadas a cada caso de uso.

Estos avances se apoyan en técnicas de entrenamiento reforzado, aprendizaje con conjuntos de datos de audio de alta calidad y métodos de destilación avanzados. El resultado es un salto cualitativo en la comprensión del lenguaje hablado y la capacidad de respuesta de los modelos, con aplicaciones que van desde la atención al cliente hasta la narración de contenidos y la creación de experiencias inmersivas.

Las pruebas de rendimiento publicadas por OpenAI muestran que sus nuevos modelos de transcripción no solo mejoran la precisión frente a Whisper, sino que también igualan o superan a soluciones líderes del mercado, como Gemini o Flashscribe, especialmente en idiomas como inglés, español, francés, alemán, chino o japonés.

Por su parte, el nuevo sistema de texto a voz, aunque por el momento solo utiliza voces sintéticas predefinidas, permite un grado de control nunca visto hasta ahora. Los desarrolladores podrán crear agentes de voz que no solo comuniquen información, sino que transmitan emociones y matices adaptados a la interacción con los usuarios.

OpenAI ha destacado que estos modelos ya están disponibles a través de la API y que se integran fácilmente en aplicaciones existentes mediante el Agents SDK. Además, para los desarrolladores interesados en experiencias de voz en tiempo real, la compañía recomienda utilizar sus modelos de speech-to-speech en la API de baja latencia.

De cara al futuro, OpenAI prevé seguir mejorando estos modelos, con el objetivo de permitir a los desarrolladores utilizar voces personalizadas y ampliar las posibilidades en áreas como la generación de vídeo y experiencias multimodales. La empresa también ha confirmado que mantiene conversaciones con legisladores, investigadores y creadores para abordar los retos y oportunidades que plantea el uso de voces sintéticas.

Con este lanzamiento, OpenAI refuerza su liderazgo en el campo de la inteligencia artificial aplicada a la voz, poniendo en manos de empresas y desarrolladores herramientas cada vez más sofisticadas para crear agentes de voz naturales, precisos y adaptativos.

Fuente: OPenAI

Scroll al inicio