OpenAI abre las APIs de ChatGPT y Whisper a desarrolladores

Q: ¿Qué modelo utiliza la API de ChatGPT?

Usa gpt-3.5-turbo , el mismo modelo que mueve la aplicación web de ChatGPT. Hay también una versión con fecha ( gpt-3.5-turbo-0301 ) para quien necesite fijar el comportamiento exacto y no se vea afectado por las próximas actualizaciones.

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

OpenAI ha abierto al público la API de ChatGPT y la de Whisper, dos piezas que hasta ahora solo eran accesibles dentro de sus productos propios. La primera se apoya en gpt-3.5-turbo, el mismo modelo que mueve la versión web de ChatGPT, y se ofrece a 0,002 dólares por cada 1.000 tokens, una décima parte de lo que costaba el anterior text-davinci-003. La segunda lleva a la API el modelo de reconocimiento de voz large-v2, ya conocido en su versión open source, con un precio de 0,006 dólares por minuto de audio.

El movimiento llega después de meses de espera por parte de los equipos que ya estaban probando ChatGPT en producción y se quedaban con el aviso de «sin API oficial». A partir de hoy, cualquier desarrollador con cuenta en la plataforma puede lanzar peticiones contra los dos endpoints sin tener que pasar por integraciones intermedias ni por hacks sobre el chat web.

API de ChatGPT: `gpt-3.5-turbo` a 0,002 dólares por 1.000 tokens

El nuevo endpoint /v1/chat/completions usa gpt-3.5-turbo, el mismo modelo que da vida a la aplicación de ChatGPT. Aunque su nombre lleva la palabra «chat», OpenAI insiste en que rinde igual o mejor que text-davinci-003 en muchos casos que no son conversacionales: redacción, clasificación, extracción de datos o resumen.

Los primeros equipos que han migrado lo cuentan en términos parecidos: la mayoría de los prompts han necesitado ajustes mínimos, sobre todo para adaptarse al nuevo formato de mensajes con roles (system, user, assistant) en vez del bloque de texto plano que usaba la familia davinci. El cambio gordo no está ahí, está en la factura: pasar de unos 0,02 dólares por 1.000 tokens en text-davinci-003 a 0,002 dólares en gpt-3.5-turbo divide el coste por diez con calidad equivalente o superior.

El modelo se sirve en una versión estable que OpenAI irá actualizando con el tiempo. Para quien necesite reproducibilidad estricta, hay snapshots con fecha: el primero es gpt-3.5-turbo-0301, congelado al 1 de marzo y con soporte garantizado hasta el 1 de junio. La compañía tiene previsto sacar una nueva versión estable en abril y avisar de los cambios en su página de modelos. Para integraciones críticas, fijar la versión con snapshot es la opción sensata.

El precio entra de lleno en la guerra de tarifas que ya se nota entre proveedores de modelos de lenguaje. Hasta ahora, montar un asistente medianamente serio sobre la API de OpenAI salía caro casi por sistema. A 0,002 dólares por 1.000 tokens, casos que antes no compensaban (chatbots de soporte, generación masiva de descripciones, agentes que iteran varias veces sobre cada consulta) empiezan a tener números razonables.

API de Whisper: voz a texto a 0,006 dólares por minuto

La segunda novedad es la API de Whisper, el sistema de reconocimiento de voz a texto que OpenAI liberó en open source en septiembre de 2022. Hasta ahora había que descargarlo y montarlo en un servidor propio, con su correspondiente coste de GPU y de mantenimiento. Desde hoy, el modelo large-v2 se puede consumir como servicio en /v1/audio/transcriptions y /v1/audio/translations a 0,006 dólares por minuto, redondeados al segundo más cercano.

El modelo soporta varias decenas de idiomas, devuelve el texto transcrito y, opcionalmente, lo traduce al inglés. La calidad es la del large-v2 open source, que a día de hoy se considera referencia para tareas de transcripción general en condiciones razonables de audio. Quien ya estaba usando proyectos como Buzz para correr Whisper en local tiene ahora una alternativa servida desde la nube, útil cuando no hay GPU disponible o el volumen varía mucho de un día a otro.

El precio coloca a Whisper en una franja competitiva frente a los servicios clásicos de speech-to-text de Google, Amazon o Microsoft, que se mueven entre 0,006 y 0,024 dólares por minuto según el modelo y las opciones activadas. Para casos como subtitulado de vídeo, transcripción de podcasts o pasar reuniones a texto, los números encajan sin tener que montar infraestructura propia.

Cambios de fondo en política de datos y SLA

Junto con el lanzamiento, OpenAI ha tocado tres políticas que llevaban tiempo siendo motivo de queja entre desarrolladores. Los datos enviados a la API ya no se usan por defecto para entrenar modelos: hay que activar el opt-in de forma expresa. Las peticiones se conservan 30 días para detección de abuso y luego se borran. Y la compañía publica por fin un SLA de uptime y un compromiso de tiempo de respuesta para los planes empresariales.

Estos cambios afectan tanto a la API nueva de ChatGPT como al resto del catálogo. Para equipos legales que estaban bloqueando integraciones con OpenAI por el tema de retención y entrenamiento, el ajuste destraba bastantes proyectos parados. Eso sí, sigue habiendo letra pequeña sobre logs internos y procesado en EE. UU., así que conviene revisar la documentación oficial antes de mover cargas de trabajo sensibles.

Para quién encaja y para quién no

El recorte de precio en gpt-3.5-turbo abre la puerta a productos que hace una semana no eran viables, pero el modelo sigue teniendo sus límites. No razona como GPT-4, alucina con datos específicos y rinde peor en código o en tareas que requieren cadena larga de pasos. Para asistentes conversacionales, generación de textos cortos, clasificación y extracción estructurada, va sobrado. Para tareas con riesgo (informes médicos, decisiones legales, código crítico) sigue tocando validar antes de soltar a producción y, probablemente, escalar a un modelo más grande.

En el caso de Whisper, el principal punto fuerte es la calidad multilingüe por un coste contenido. El límite está en archivos por encima de 25 MB, que hay que trocear, y en escenarios con mucho ruido o varios hablantes solapados, donde aparecen errores que conviene revisar. La API no incluye diarización (separación de hablantes) ni puntuación forzada de marcas de tiempo a nivel de palabra: para esas funciones hay que combinarla con otras herramientas o quedarse con el modelo open source.

El reto más inmediato no es técnico, es estratégico. Mientras OpenAI consolida su posición y baja precios, otros laboratorios (entre ellos los implicados en la guerra accionarial alrededor de OpenAI) preparan respuestas. Para los equipos que están decidiendo en qué API construir su producto, la recomendación sensata pasa por mantener la capa de modelo desacoplada y poder cambiar de proveedor sin reescribir media aplicación.

Disponibilidad y cómo empezar

Las dos APIs están disponibles desde ya para cualquier cuenta de pago en platform.openai.com. La de ChatGPT funciona con la misma clave que el resto del catálogo, y la documentación oficial incluye ejemplos en Python, Node.js y cURL. Para Whisper, la integración mínima cabe en una llamada POST con el archivo de audio y el código de idioma deseado.

OpenAI publica la nota completa con todos los detalles técnicos en su blog: Introducing ChatGPT and Whisper APIs. Quien prefiera entrar directamente al catálogo puede hacerlo desde la referencia de la API.

Preguntas frecuentes

¿Cuánto cuesta la API de ChatGPT de OpenAI?

0,002 dólares por cada 1.000 tokens, tanto de entrada como de salida. Es una décima parte del precio que tenía el modelo anterior text-davinci-003, que se movía en torno a 0,02 dólares por 1.000 tokens.

¿Qué modelo utiliza la API de ChatGPT?

Usa gpt-3.5-turbo, el mismo modelo que mueve la aplicación web de ChatGPT. Hay también una versión con fecha (gpt-3.5-turbo-0301) para quien necesite fijar el comportamiento exacto y no se vea afectado por las próximas actualizaciones.

¿Qué cambia respecto a `text-davinci-003`?

Además del recorte de precio (10 veces más barato), el formato de entrada cambia: en vez de un bloque de texto plano, ahora se envía una lista de mensajes con roles (system, user, assistant). Para la mayoría de tareas no conversacionales, los prompts existentes se adaptan con cambios mínimos.

¿Cuánto cuesta la API de Whisper?

0,006 dólares por minuto de audio, redondeado al segundo más cercano. Una hora de transcripción sale por 0,36 dólares, sin contar IVA ni cargos por ancho de banda en la subida del archivo.

¿Para qué sirve la API de Whisper?

Convierte audio en texto en varias decenas de idiomas y, opcionalmente, traduce el resultado al inglés. Encaja bien en subtitulado de vídeo, transcripción de podcasts y reuniones, y notas de voz. No incluye separación de hablantes ni marcas de tiempo a nivel de palabra; para eso hay que combinarla con otras herramientas o usar el modelo open source.

¿OpenAI usa los datos enviados por la API para entrenar sus modelos?

Por defecto no. Con el lanzamiento de estas APIs, la política pasa a ser opt-out: los datos enviados vía API no se usan para entrenamiento salvo que el cliente lo active de forma expresa. Las peticiones se conservan 30 días para detección de abuso y luego se eliminan.