OpenAI lanza el modo de voz avanzado para ChatGPT

Elena Digital López

OpenAI ha comenzado a desplegar el Modo de Voz Avanzado a un pequeño grupo de usuarios de ChatGPT Plus, permitiéndoles probar conversaciones más naturales y en tiempo real.

El Modo de Voz Avanzado permite a ChatGPT ofrecer respuestas en tiempo real que pueden ser interrumpidas, además de tener la capacidad de detectar y responder a humor, sarcasmo y otros matices. A diferencia del modo de voz actual de ChatGPT, este nuevo modelo no necesita convertir el habla a texto y viceversa, lo que reduce significativamente la latencia en las interacciones.

OpenAI mostró por primera vez el Modo de Voz Avanzado en mayo, destacando una voz de inteligencia artificial llamada Sky, que sonaba notablemente similar a la actriz Scarlett Johansson. Esta voz fue creada y utilizada sin el permiso de Johansson, quien luego emitió un comunicado al respecto. Según Johansson, rechazó múltiples ofertas del CEO de OpenAI, Sam Altman, quien quería que ella fuera la voz de ChatGPT. Johansson expresó estar «conmocionada, enojada y en estado de incredulidad» al descubrir que Altman había creado una voz que sonaba «espeluznantemente similar» a la suya. OpenAI afirmó que la voz de Sky no estaba destinada a parecerse a la de Johansson, pero fue eliminada después de que la actriz contratara asesoría legal.

Desde esa demostración inicial, OpenAI ha estado trabajando para mejorar la seguridad y la calidad de las conversaciones por voz. El Modo de Voz Avanzado ahora habla en cuatro voces preestablecidas y está diseñado para bloquear salidas que difieran de esas voces, evitando así la imitación de voces de celebridades. OpenAI también ha implementado «barreras de protección» para bloquear solicitudes de contenido violento o con derechos de autor. Las pruebas iniciales de esta función se utilizarán para mejorarla antes de su lanzamiento general.

Los usuarios que hayan sido seleccionados para acceder al Modo de Voz Avanzado recibirán un correo electrónico con instrucciones, y OpenAI planea añadir más usuarios de manera gradual. Se espera que todos los usuarios de Plus tengan acceso a esta función en otoño.

«Estamos empezando a desplegar el Modo de Voz Avanzado a un pequeño grupo de usuarios de ChatGPT Plus. El Modo de Voz Avanzado ofrece conversaciones más naturales en tiempo real, permite interrumpir en cualquier momento, y detecta y responde a tus emociones», publicó OpenAI en su cuenta de X (anteriormente Twitter).

Los usuarios incluidos en esta fase alfa recibirán un correo electrónico con instrucciones y un mensaje en su aplicación móvil. Continuaremos añadiendo más personas de manera progresiva y planeamos que todos los usuarios de Plus tengan acceso en otoño. Como se mencionó anteriormente, las capacidades de video y compartición de pantalla se lanzarán en una fecha posterior.

Desde la primera demostración del Modo de Voz Avanzado, hemos estado trabajando para reforzar la seguridad y calidad de las conversaciones por voz mientras nos preparamos para llevar esta tecnología a millones de personas.

Probamos las capacidades de voz de GPT-4o con más de 100 equipos externos en 45 idiomas. Para proteger la privacidad de las personas, hemos entrenado el modelo para que solo hable en las cuatro voces preestablecidas, y construimos sistemas para bloquear salidas que difieran de esas voces. También hemos implementado barreras de protección para bloquear solicitudes de contenido violento o con derechos de autor.

Los aprendizajes de esta fase alfa nos ayudarán a hacer que la experiencia de Voz Avanzada sea más segura y agradable para todos. Planeamos compartir un informe detallado sobre las capacidades, limitaciones y evaluaciones de seguridad de GPT-4o a principios de agosto.

Scroll al inicio