OpenAI ha dado un paso que confirma hacia dónde se mueve la carrera de la inteligencia artificial: ya no basta con entrenar mejores modelos ni con vender productos como ChatGPT, Codex o la API. La compañía quiere controlar también una parte crítica de la infraestructura física que sostiene esos servicios. Junto a Broadcom, ha presentado Jalapeño, su primer Intelligence Processor, un acelerador diseñado específicamente para inferencia de modelos de lenguaje.
El anuncio es relevante porque apunta al gran problema económico de la IA generativa en producción. Entrenar modelos frontera exige cantidades enormes de cómputo, pero la inferencia es donde la IA se convierte en servicio cotidiano: cada respuesta de ChatGPT, cada tarea de Codex, cada llamada a la API y cada futuro agente que trabaje durante minutos u horas consume capacidad de centro de datos. Si ese coste no baja, la promesa de una IA más accesible choca con una realidad física: chips, energía, memoria, red y refrigeración.
OpenAI y Broadcom presentan Jalapeño como el primer chip de una plataforma de cómputo multigeneracional. Según OpenAI, las primeras pruebas apuntan a una mejora sustancial de rendimiento por vatio frente al estado del arte actual, aunque la compañía todavía no ha publicado cifras finales ni un informe técnico detallado. Ese matiz es importante: el anuncio marca una dirección estratégica, pero las comparativas reales tendrán que esperar.
Un chip pensado para inferencia, no para todo
Jalapeño no se ha planteado como un acelerador generalista adaptado después a IA. OpenAI lo define como un diseño desde cero para inferencia de LLM modernos. La diferencia importa. Una GPU de propósito general puede servir para entrenamiento, inferencia, simulación, gráficos, HPC y muchas otras cargas. Un ASIC de inferencia, en cambio, puede ser menos flexible, pero mucho más eficiente cuando el patrón de trabajo está bien entendido.
OpenAI parte de una ventaja poco común: conoce de primera mano cómo se comportan sus modelos en producción. La compañía opera ChatGPT, Codex, la API y otros productos que generan cargas masivas y muy específicas. Eso le permite diseñar hardware teniendo en cuenta kernels, movimiento de memoria, sistemas de serving, planificación, latencia, red y necesidades futuras de productos agénticos.
El objetivo declarado es combinar potencia y throughput con una latencia más cercana a sistemas especializados de inferencia. En términos prácticos, esto significa intentar que las respuestas lleguen más rápido, que más usuarios puedan ser atendidos con la misma infraestructura y que el coste por token baje.
| Elemento | Qué aporta en la estrategia de OpenAI |
|---|---|
| Jalapeño | Acelerador propio optimizado para inferencia de LLM |
| Broadcom | Implementación de silicio, networking y conectividad |
| Celestica | Integración de placa, rack y sistemas |
| Tomahawk | Tecnología de red de Broadcom para despliegues a gran escala |
| ChatGPT, Codex y API | Cargas reales que guían el diseño del chip |
| Despliegue a gigavatios | Escala prevista con socios de centros de datos |
La clave técnica, según OpenAI, está en reducir el movimiento de datos y equilibrar mejor cómputo, memoria y red. En los sistemas de IA actuales, no todo el problema es tener más operaciones por segundo. Muchas veces el cuello de botella aparece en mover datos entre memoria, aceleradores y nodos, o en no alcanzar una utilización real cercana al pico teórico del hardware. Jalapeño intenta atacar esa ineficiencia desde el diseño.
El salto de OpenAI hacia el stack completo
El anuncio confirma la transición de OpenAI hacia una compañía de infraestructura completa. En sus primeros años, el foco estaba en investigación. Después llegó la etapa de producto, con ChatGPT como gran punto de inflexión. Ahora la empresa está entrando en una fase donde el control del hardware se vuelve parte de la estrategia.
Ese movimiento no es exclusivo de OpenAI. Google lleva años con TPU, Amazon tiene Trainium e Inferentia, Microsoft ha desarrollado Maia y grandes operadores cloud buscan reducir su dependencia de un único proveedor de aceleradores. La lógica es clara: cuando el cómputo se convierte en el principal coste operativo, controlar el hardware deja de ser una opción exótica y pasa a ser una palanca de negocio.
Para OpenAI, el caso es todavía más evidente. Sus productos tienen patrones de uso muy intensivos, millones de usuarios, necesidades de baja latencia y una demanda creciente de agentes capaces de ejecutar tareas largas. Si cada mejora de eficiencia se traduce en menos coste por respuesta, menor espera o más capacidad disponible, el impacto se nota directamente en producto.
También hay una lectura competitiva. OpenAI sigue necesitando GPUs y capacidad de sus socios, pero Jalapeño le permite empezar a moldear una parte de su infraestructura según sus propias necesidades. No se trata solo de comprar cómputo, sino de diseñarlo.
Nueve meses hasta el tape-out
Uno de los datos más llamativos del anuncio es el plazo. OpenAI afirma que Jalapeño se desarrolló desde el diseño inicial hasta el tape-out de fabricación en nueve meses, con ayuda de sus propios modelos para acelerar partes del proceso de diseño y optimización.
En semiconductores avanzados, nueve meses es un ciclo muy agresivo. Diseñar un ASIC de alto rendimiento suele exigir iteraciones complejas, validaciones, simulaciones, verificación, trabajo con herramientas EDA, integración de memoria, red, firmware, placas y sistemas. Que OpenAI y Broadcom destaquen este punto indica otra tendencia de fondo: la IA empieza a usarse también para construir la infraestructura que hará posible la siguiente generación de IA.
La frase puede sonar circular, pero es importante. Los modelos que hoy se sirven a usuarios pueden ayudar a ingenieros a revisar diseños, explorar opciones, detectar errores, documentar decisiones o acelerar flujos de verificación. Si esa mejora se consolida, el ciclo de desarrollo de hardware podría acortarse en determinadas fases.
Aun así, conviene mantener prudencia. El tape-out no equivale a despliegue masivo. OpenAI indica que las muestras de ingeniería ya ejecutan cargas de machine learning en laboratorio a frecuencia y potencia objetivo, incluida una carga denominada GPT-5.3-Codex-Spark. Pero pasar de muestras de ingeniería a producción a gran escala exige validar rendimiento, fiabilidad, suministro, integración en racks, software, mantenimiento y operación real en centros de datos.
La inferencia como nueva batalla del coste
La industria de IA ha hablado mucho de entrenamiento, pero la inferencia empieza a ser la batalla más importante. Entrenar un modelo es caro, pero ocurre en campañas concretas. Servirlo a millones de usuarios sucede todos los días. Cuanto más se usan los modelos, más pesa la inferencia en la cuenta de resultados.
Además, los agentes cambian la curva de consumo. Un chatbot responde en uno o varios turnos. Un agente puede leer documentos, llamar herramientas, escribir código, ejecutar pruebas, revisar resultados y corregirse varias veces. Esa interacción consume muchos más tokens, más tiempo de cómputo y más coordinación entre sistemas.
Jalapeño está pensado precisamente para ese entorno. No solo para responder preguntas, sino para alimentar productos interactivos a escala, donde la latencia y el coste determinan si una función puede ofrecerse a millones de usuarios o queda limitada a planes caros.
| Tipo de carga | Por qué importa el chip de inferencia |
|---|---|
| ChatGPT | Menos latencia y más capacidad en picos de demanda |
| Codex | Tareas largas con múltiples pasos y menor espera |
| API | Coste más bajo para desarrolladores y empresas |
| Agentes | Más acciones por tarea sin disparar el coste |
| Productos empresariales | Mayor previsibilidad y fiabilidad operativa |
Aquí se entiende mejor el mensaje de OpenAI sobre “hacer la inteligencia más abundante”. La abundancia de IA no depende solo de modelos mejores. Depende de que el coste marginal de usarlos baje lo suficiente como para que nuevas aplicaciones sean viables.
Broadcom gana peso en la carrera de los chips de IA
Para Broadcom, Jalapeño refuerza una posición que ya venía creciendo: la de socio clave para grandes clientes que quieren chips personalizados. La compañía no compite igual que NVIDIA en GPU de propósito general, sino que ofrece experiencia en ASIC, networking, conectividad y sistemas a escala. En un mundo donde los hiperescalares y laboratorios de IA buscan diseños propios, ese papel es cada vez más valioso.
El uso de tecnologías de red como Tomahawk también recuerda que un chip aislado no resuelve el problema. La IA a escala necesita interconectar miles o decenas de miles de aceleradores con baja latencia, alto ancho de banda y buena eficiencia energética. La red interna del centro de datos es tan importante como el acelerador individual.
La participación de Celestica añade otra capa industrial: llevar el chip a placas, racks y sistemas producibles. El anuncio no va solo de silicio. Va de plataforma: acelerador, placa, rack, red, fabricación, despliegue y operación.
Lo que todavía falta por saber
OpenAI no ha publicado aún datos técnicos detallados de Jalapeño. No se conocen cifras finales de rendimiento, memoria, ancho de banda, proceso de fabricación, tipo de memoria utilizada, formato de interconexión, consumo exacto, coste por token o comparativas verificables frente a GPUs y otros aceleradores. La compañía promete un informe técnico en los próximos meses.
Esa falta de datos impide sacar conclusiones definitivas. Jalapeño puede ser un paso importante incluso aunque no sustituya por completo a las GPUs. También puede convivir con ellas, especializándose en cargas de inferencia donde OpenAI tenga patrones muy claros. En infraestructura de IA, la respuesta rara vez es un único chip para todo.
Lo relevante es la dirección. OpenAI está convirtiendo su conocimiento de modelos y productos en arquitectura de hardware. Broadcom aporta capacidad industrial para producir esa visión. Y el despliegue previsto a escala de gigavatios muestra que la IA entra en una fase donde el cuello de botella ya no está solo en el algoritmo, sino en la energía, el silicio y la eficiencia del centro de datos.
Jalapeño no es simplemente “el chip de OpenAI”. Es una señal de que la próxima etapa de la IA se jugará en el stack completo: modelos, software, kernels, memoria, red, scheduling, racks, energía y producto. Quien controle más capas podrá ajustar mejor costes, rendimiento y experiencia de usuario.
Para desarrolladores y empresas, el impacto no será inmediato, pero puede notarse si OpenAI logra reducir el coste de inferencia y aumentar la disponibilidad de sus modelos. Para el mercado de chips, el mensaje es claro: los grandes consumidores de IA no quieren limitarse a comprar aceleradores. Quieren diseñar la máquina que mejor encaje con sus modelos.
Preguntas frecuentes
¿Qué es Jalapeño?
Jalapeño es el primer Intelligence Processor de OpenAI, un acelerador diseñado junto a Broadcom para inferencia de modelos de lenguaje.
¿Está pensado para entrenar modelos o para servirlos?
El foco principal es la inferencia. Es decir, ejecutar modelos ya entrenados en productos como ChatGPT, Codex, la API y futuros agentes.
¿OpenAI ha publicado benchmarks completos?
No. OpenAI afirma que las primeras pruebas muestran un rendimiento por vatio muy superior al estado del arte actual, pero el informe técnico detallado se publicará más adelante.
¿Cuándo se desplegará Jalapeño?
OpenAI plantea un despliegue inicial hacia finales de 2026, como parte de una plataforma multigeneracional desarrollada con Broadcom, Celestica y socios de centros de datos.
Fuente: OpenAI, “OpenAI and Broadcom unveil LLM-optimized inference chip”.











