GPT-4V es la variante multimodal de GPT-4, con capacidad para procesar imágenes como entrada además de texto. Permite responder preguntas sobre el contenido visual de una imagen, identificar objetos, leer texto impreso o interpretar gráficos.

ChatGPT multimodal: voz, imagen y cinco voces para elegir

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

En septiembre de 2023, OpenAI anunció las primeras capacidades multimodales para ChatGPT: conversación por voz y análisis de imágenes. El despliegue empezó por los usuarios de los planes Plus y Enterprise, con acceso previsto para desarrolladores poco después. Era la primera vez que el asistente podía recibir información visual y responder de forma oral, no solo mediante texto.

Cómo funciona el modo de voz

La conversación por voz se apoya en un nuevo modelo de texto a voz (TTS) capaz de generar audio de calidad similar a la voz humana a partir de texto escrito y una pequeña muestra de habla. OpenAI grabó cada voz con actores profesionales y ofrece cinco opciones al usuario. Para activar la función, hay que ir a Configuración → Nuevas funciones en la aplicación móvil y activar las conversaciones de voz.

La latencia es el dato que más importa en la experiencia de voz. OpenAI no publicó cifras concretas en el anuncio, aunque el objetivo declarado era conseguir respuestas lo suficientemente rápidas para una conversación fluida, sin pausas perceptibles entre la pregunta y la respuesta del asistente.

Análisis de imágenes con GPT-4V

La capacidad de visión funciona con GPT-4V (la variante multimodal de GPT-4) y con GPT-3.5 multimodal. El usuario puede compartir una imagen y hacer preguntas sobre su contenido: desde identificar por qué no arranca un aparato hasta analizar un gráfico de datos o explorar qué hay en la nevera para sugerir una receta. El modelo aplica sus habilidades de razonamiento lingüístico a la interpretación visual.

Riesgos y limitaciones que OpenAI reconoce

OpenAI optó por un despliegue gradual porque las nuevas modalidades introducen riesgos que no tenía el ChatGPT original:

Voz: el modelo TTS que genera audio realista podría usarse para imitar la voz de personas públicas o cometer fraudes. OpenAI limitó el acceso a la API de generación de voz y diseñó las cinco voces con actores, no con grabaciones de figuras conocidas.
Visión: los modelos multimodales cometen errores en dominios de alta importancia (documentos médicos, planos técnicos, gráficos financieros). Las alucinaciones visuales son en algunos casos más difíciles de detectar que las textuales, porque el usuario puede no saber que la interpretación es incorrecta.
Privacidad: OpenAI introdujo restricciones técnicas para limitar la capacidad del modelo de identificar personas en imágenes y hacer afirmaciones directas sobre ellas.

La incorporación de voz e imagen en ChatGPT es parte de la hoja de trabajo de OpenAI hacia una IA de propósito general. El anuncio de septiembre de 2023 fue uno de los primeros pasos visibles de esa dirección: pasar de asistente textual a agente capaz de percibir y procesar información del mundo real en múltiples formatos.

Preguntas frecuentes

¿Qué es GPT-4V?

GPT-4V es la variante multimodal de GPT-4, con capacidad para procesar imágenes como entrada además de texto. Permite al modelo responder preguntas sobre el contenido visual de una imagen, identificar objetos, leer texto impreso o interpretar gráficos.

¿Qué significa multimodal en IA?

Un modelo multimodal puede procesar y generar información en varios formatos: texto, imagen, audio y, en algunos casos, vídeo. ChatGPT añadió voz e imagen en septiembre de 2023; el modelo base era solo texto hasta ese momento.

¿Qué planes de ChatGPT tienen acceso a la función de voz?

El despliegue initial fue para usuarios de los planes Plus y Enterprise. OpenAI anunció que el acceso se ampliaría a desarrolladores y otros grupos de usuarios poco después.

¿Por qué el despliegue fue gradual?

Por los riesgos asociados: la síntesis de voz realista puede usarse para impersonar personas, y los modelos de visión cometen errores que son más difíciles de detectar que los textuales. OpenAI decidió avanzar por fases para monitorizar el comportamiento en producción y corregir problemas antes de un lanzamiento masivo.

¿Qué es el texto a voz (TTS)?

Text-to-Speech (TTS) es la tecnología que convierte texto escrito en audio hablado. OpenAI desarrolló para ChatGPT un modelo TTS capaz de generar voz de calidad similar a la humana a partir de texto y una corta muestra de habla de referencia.