Machine Learning, Notas de prensa, Noticias
25/03/2025

OpenAI lanza sus nuevos modelos de audio para potenciar agentes de voz inteligentes

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La empresa OpenAI ha presentado esta semana su nueva generación de modelos de audio en la API, con avances significativos en transcripción y síntesis de voz que prometen revolucionar la interacción con agentes virtuales. Estos nuevos modelos de reconocimiento de voz y texto a voz ya están disponibles para desarrolladores de todo el mundo, ofreciendo mayor precisión, personalización y versatilidad.

Los modelos de transcripción de voz a texto, denominados gpt-4o-transcribe y gpt-4o-mini-transcribe, superan a sus predecesores (como Whisper v2 y v3) en términos de precisión y fiabilidad. Según OpenAI, estos modelos logran una tasa de error de palabras (WER) inferior, lo que se traduce en transcripciones más exactas, incluso en entornos ruidosos, con distintos acentos y variaciones en la velocidad del habla. Esta mejora los posiciona como una herramienta idónea para centros de atención telefónica, transcripción de reuniones y aplicaciones empresariales que requieren un alto nivel de exactitud.

Audio Models in the API

Además, la compañía ha lanzado gpt-4o-mini-tts, su nuevo modelo de texto a voz que incorpora la posibilidad de ajustar el tono y la forma en que el agente habla. Así, los desarrolladores podrán pedir al modelo que adopte un estilo específico, como el de un agente de atención al cliente empático o un narrador expresivo, abriendo nuevas posibilidades en la creación de experiencias sonoras más humanas y adaptadas a cada caso de uso.

Estos avances se apoyan en técnicas de entrenamiento reforzado, aprendizaje con conjuntos de datos de audio de alta calidad y métodos de destilación avanzados. El resultado es un salto cualitativo en la comprensión del lenguaje hablado y la capacidad de respuesta de los modelos, con aplicaciones que van desde la atención al cliente hasta la narración de contenidos y la creación de experiencias inmersivas.

Las pruebas de rendimiento publicadas por OpenAI muestran que sus nuevos modelos de transcripción no solo mejoran la precisión frente a Whisper, sino que también igualan o superan a soluciones líderes del mercado, como Gemini o Flashscribe, especialmente en idiomas como inglés, español, francés, alemán, chino o japonés.

Por su parte, el nuevo sistema de texto a voz, aunque por el momento solo utiliza voces sintéticas predefinidas, permite un grado de control nunca visto hasta ahora. Los desarrolladores podrán crear agentes de voz que no solo comuniquen información, sino que transmitan emociones y matices adaptados a la interacción con los usuarios.

OpenAI ha destacado que estos modelos ya están disponibles a través de la API y que se integran fácilmente en aplicaciones existentes mediante el Agents SDK. Además, para los desarrolladores interesados en experiencias de voz en tiempo real, la compañía recomienda utilizar sus modelos de speech-to-speech en la API de baja latencia.

De cara al futuro, OpenAI prevé seguir mejorando estos modelos, con el objetivo de permitir a los desarrolladores utilizar voces personalizadas y ampliar las posibilidades en áreas como la generación de vídeo y experiencias multimodales. La empresa también ha confirmado que mantiene conversaciones con legisladores, investigadores y creadores para abordar los retos y oportunidades que plantea el uso de voces sintéticas.

Con este lanzamiento, OpenAI refuerza su liderazgo en el campo de la inteligencia artificial aplicada a la voz, poniendo en manos de empresas y desarrolladores herramientas cada vez más sofisticadas para crear agentes de voz naturales, precisos y adaptativos.

Fuente: OPenAI

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

Últimos artículos

Tesla desmantela su equipo Dojo y abandona el desarrollo de chips propios de IA para apoyarse en NVIDIA y Samsung

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

Tesla presenta el Robotaxi: el futuro del transporte autónomo a precio accesible

China apunta a superar a Tesla con su avance en robots humanoides

Tesla revoluciona la visión de los robots autónomos con un nuevo sistema basado en IA

Artículos relacionados

Meta reorganiza su división de inteligencia artificial en cuatro grupos para perseguir la superinteligencia

Nuevo índice predictivo “SmartPrice” de Fotocasa con tecnología DataVenues: La analítica predictiva da un salto clave en el sector inmobiliario gracias a la inteligencia artificial

Oracle y Google Cloud se alían para llevar los modelos Gemini a las empresas: un paso más hacia la IA agentica

Elena Digital López

Crea Productos Personalizados y Campañas de Marketing con Amazon Nova en Amazon Bedrock

Elena Digital López

Tyson Foods Mejora la Experiencia de Búsqueda del Cliente con un Asistente Conversacional Impulsado por IA

Elena Digital López

Mejora de Agentes de IA con Modelos Predictivos de ML Usando Amazon SageMaker y el Protocolo de Contexto de Modelos (MCP)

Meta Anuncia Centros de Datos en Kansas City y Próximos Centros Optimizados para IA

OpenUSD y Gemelos Digitales Impulsan la IA Industrial y Física