ChatGPT evoluciona: ahora puede ver, escuchar y hablar

En un avance tecnológico sorprendente, ChatGPT, el popular modelo de lenguaje de OpenAI, ahora puede interactuar con usuarios a través de voz e imágenes. Esta nueva integración permite a los usuarios tener conversaciones por voz y mostrarle a ChatGPT imágenes para obtener información o respuestas relacionadas.

Hable y Escuche a ChatGPT

Ahora es posible entablar conversaciones de voz con el asistente digital. Ya sea mientras se está en movimiento, pidiendo una historia para dormir para la familia, o resolviendo un debate en la mesa del comedor, ChatGPT está listo para escuchar y responder. Para acceder a esta función, los usuarios solo deben dirigirse a Configuración → Nuevas Funciones en la aplicación móvil y activar las conversaciones por voz.

Este avance es posible gracias a un nuevo modelo de texto a voz, capaz de generar audio similar al humano a partir de texto y una pequeña muestra de habla. OpenAI ha colaborado con actores de voz profesionales para crear cada uno de las voces disponibles, permitiendo a los usuarios elegir entre cinco diferentes opciones.

Analice Imágenes con ChatGPT

Además de la función de voz, los usuarios también pueden mostrar a ChatGPT imágenes para diversos propósitos. Desde resolver por qué una parrilla no enciende hasta explorar el contenido de un refrigerador para planificar una comida o analizar un gráfico complejo relacionado con el trabajo. Esta comprensión de las imágenes está impulsada por modelos como GPT-3.5 multimodal y GPT-4, que aplican sus habilidades lingüísticas a una amplia gama de imágenes.

Despliegue Gradual y Responsable

La visión de OpenAI es construir una Inteligencia Artificial General (AGI) segura y beneficiosa. Por ello, la incorporación de capacidades de voz e imagen en ChatGPT se realiza de forma gradual y cautelosa, especialmente debido a los desafíos y riesgos asociados con estas tecnologías.

Por ejemplo, aunque la nueva tecnología de voz ofrece posibilidades creativas y centradas en la accesibilidad, también presenta riesgos, como la posibilidad de que actores malintencionados imiten a figuras públicas. Por otro lado, los modelos basados en visión enfrentan desafíos desde alucinaciones hasta interpretaciones erróneas en dominios de alta importancia.

OpenAI ha tomado medidas técnicas para limitar la habilidad de ChatGPT de analizar y hacer declaraciones directas sobre personas, garantizando así la privacidad de los individuos.

Próximos Pasos

En las próximas dos semanas, los usuarios Plus y Enterprise tendrán acceso a las capacidades de voz e imagen. OpenAI está emocionado por expandir estas funcionalidades a otros grupos de usuarios, incluidos desarrolladores, poco después.

Sin duda, este es un paso monumental en la evolución de los asistentes digitales, y se espera que estas nuevas características mejoren la interacción y experiencia del usuario con la IA.

Scroll al inicio