OpenAI, la reconocida empresa de inteligencia artificial, ha anunciado el lanzamiento de su nueva API en tiempo real, una herramienta que promete revolucionar la manera en que los desarrolladores crean experiencias de voz en sus aplicaciones. Esta novedad, presentada el 1 de octubre de 2024, permite a los programadores implementar conversaciones de voz a voz con baja latencia y capacidades multimodales.
Características principales de la API en tiempo real
La nueva API ofrece a los desarrolladores la posibilidad de construir asistentes de voz naturales y fluidos, similares al Modo de Voz Avanzado de ChatGPT. Entre sus características más destacadas se encuentran:
- Soporte para conversaciones de voz a voz utilizando seis voces preestablecidas.
- Capacidad de manejar interrupciones de manera automática.
- Posibilidad de utilizar llamadas a funciones para activar acciones o recuperar contexto adicional.
Funcionamiento y mejoras respecto a sistemas anteriores
La API en tiempo real utiliza una conexión WebSocket persistente para intercambiar mensajes con GPT-4o, el modelo de lenguaje más avanzado de OpenAI. Este enfoque supera las limitaciones de los sistemas anteriores, que requerían la combinación de varios modelos para lograr experiencias de voz similares.
Con esta nueva API, se eliminan problemas como la pérdida de emoción, énfasis y acentos en el habla, así como la notable latencia que caracterizaba a los sistemas anteriores. El resultado es una experiencia de conversación más natural y fluida.
Casos de uso y aplicaciones potenciales
OpenAI ha estado probando la API en tiempo real con un grupo selecto de socios, revelando algunos casos de uso prometedores:
- Agentes de atención al cliente
- Asistentes para el aprendizaje de idiomas
- Aplicaciones educativas
- Experiencias de soporte al cliente personalizadas
Disponibilidad y precios
La API en tiempo real estará disponible en versión beta pública para todos los desarrolladores con cuentas de pago. Los precios se han establecido de la siguiente manera:
- Tokens de texto de entrada: $5 por millón
- Tokens de texto de salida: $20 por millón
- Audio de entrada: $100 por millón de tokens (aproximadamente $0,06 por minuto)
- Audio de salida: $200 por millón de tokens (aproximadamente $0,24 por minuto)
Seguridad y privacidad
OpenAI ha implementado múltiples capas de protección para mitigar el riesgo de abuso de la API. Estas incluyen monitoreo automatizado y revisión humana de las entradas y salidas del modelo que sean marcadas como sospechosas. La empresa asegura que no entrena sus modelos con las entradas o salidas utilizadas en este servicio sin el permiso explícito de los usuarios.
Planes futuros
OpenAI ha anunciado planes para expandir las capacidades de la API en tiempo real en el futuro próximo. Algunas de las mejoras previstas incluyen:
- Adición de más modalidades, como visión y video
- Aumento de los límites de velocidad para soportar implementaciones más grandes
- Integración de la API en los SDK oficiales de OpenAI para Python y Node.js
- Implementación de caché de indicaciones para reducir costos en conversaciones largas
- Soporte para modelos adicionales, como GPT-4o mini
Con el lanzamiento de esta API en tiempo real, OpenAI continúa a la vanguardia en el desarrollo de herramientas de inteligencia artificial, ofreciendo a los desarrolladores nuevas posibilidades para crear experiencias de usuario innovadoras y naturales en una amplia gama de aplicaciones.
vía: OpenAI