DevDay: OpenAI lanza GPT-4 Turbo con 128K tokens y más APIs

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

OpenAI celebró su primera DevDay en San Francisco el 6 de noviembre de 2023 con un paquete de anuncios orientados a desarrolladores. El protagonista fue GPT-4 Turbo, una versión mejorada de GPT-4 con ventana de contexto de 128.000 tokens, conocimiento actualizado hasta abril de 2023 y precios tres veces más bajos en tokens de entrada que su predecesor.

128K tokens equivalen a más de 300 páginas de texto en un solo prompt. Para los equipos que trabajan con documentos largos, historial de conversaciones extenso o bases de conocimiento voluminosas, ese salto en contexto es el cambio más relevante del anuncio.

Precios y rendimiento de GPT-4 Turbo

Los tokens de entrada para GPT-4 Turbo se fijan en 0,01 dólares por cada mil, frente a los 0,03 dólares de GPT-4. Los de salida bajan a 0,03 dólares por mil, desde los 0,06 dólares anteriores. Es una rebaja notable en un modelo que sigue siendo el más capaz de la compañía en ese momento.

OpenAI ha duplicado además los límites de tokens por minuto para todos sus clientes de pago de GPT-4. La combinación de mayor contexto, menos coste y más throughput apunta claramente a que la compañía quiere que los equipos migre sus aplicaciones actuales de GPT-3.5 Turbo a GPT-4 Turbo. El modelo está disponible como preview en la API con el identificador gpt-4-1106-preview.

Assistants API: construir asistentes con herramientas persistentes

El otro gran anuncio es la Assistants API, que permite a los desarrolladores crear asistentes con acceso a herramientas como Code Interpreter (ejecuta código Python en un entorno seguro) y Retrieval (busca en documentos cargados por el usuario). Hasta ahora los desarrolladores tenían que implementar esas funcionalidades manualmente.

La API gestiona el historial de conversación (threads), ejecuta las herramientas según los necesite el modelo y devuelve el resultado. Para muchos casos de uso, esto elimina la necesidad de montar infraestructura propia de orquestación. La API de Assistants está en fase beta.

DALL·E 3, voz y Whisper v3

Las capacidades multimodales se amplían con tres añadidos. Primero, la API de DALL·E 3, que ya estaba disponible en ChatGPT Plus pero ahora los desarrolladores pueden integrar directamente en sus aplicaciones para generar imágenes a partir de texto.

Segundo, una API de texto a voz (TTS) con seis voces disponibles, capaz de generar audio de calidad cercana a la narración humana. El ejemplo que dio OpenAI fue BeMyEyes, una aplicación que ya usa las capacidades de visión del modelo para describir el entorno a personas con discapacidad visual.

Tercero, Whisper v3, la siguiente versión del modelo de reconocimiento automático del habla de código abierto de OpenAI, con mejor rendimiento en más idiomas. Whisper v3 se publicará en GitHub en las próximas semanas desde el anuncio.

Copyright Shield y modelos personalizados

OpenAI presentó también el Copyright Shield: la compañía se compromete a cubrir los costes legales de los clientes de pago de la API y de ChatGPT Enterprise que reciban reclamaciones por infracción de derechos de autor relacionadas con el uso de sus herramientas. El movimiento es una respuesta directa a la creciente presión legal de editoriales y creadores de contenido contra las empresas de IA. Esa presión no ha hecho más que crecer desde entonces.

Por último, OpenAI anunció un programa de modelos personalizados de GPT-4 para organizaciones que necesiten ajustar el modelo a dominios específicos. El proceso implica colaboración directa con el equipo de OpenAI y está disponible solo para un número limitado de organizaciones. No es fine-tuning de libre acceso, sino un proyecto conjunto con la empresa.

La evolución de GPT-4 no se ha detenido desde este anuncio: OpenAI continuó lanzando versiones sucesivas hasta llegar a GPT-5 en 2025, y el propio GPT-4 original ya ha sido retirado de ChatGPT en 2026.

Preguntas frecuentes

¿Qué diferencia tiene GPT-4 Turbo respecto a GPT-4?

Ventana de contexto ampliada a 128K tokens (frente a 8K o 32K de GPT-4), conocimiento actualizado hasta abril de 2023, precios de entrada reducidos un 66 % y de salida un 50 %, y mayor throughput para clientes de pago.

¿Qué permite hacer la Assistants API que antes no era posible?

Gestiona automáticamente el historial de conversación y ejecuta herramientas como Code Interpreter y Retrieval sin que el desarrollador tenga que implementar la lógica de orquestación manualmente.

¿Qué es el Copyright Shield de OpenAI?

Un compromiso de OpenAI para cubrir los costes legales de clientes de pago de la API y ChatGPT Enterprise que reciban demandas por infracción de derechos de autor derivadas del uso de sus herramientas.

¿Está disponible la API de DALL·E 3 para todos los desarrolladores?

Sí. A partir de la DevDay de noviembre de 2023, la API de DALL·E 3 está disponible para todos los desarrolladores con acceso a la API de OpenAI.

¿Whisper v3 es de código abierto?

Sí. Como sus versiones anteriores, Whisper v3 se publica en GitHub bajo licencia de código abierto. OpenAI confirmó que estaría disponible en las semanas siguientes al anuncio de la DevDay.