La carrera por servir modelos de lenguaje a gran escala con latencias cada vez más bajas no se está decidiendo solo en las grandes tecnológicas. También se cocina en laboratorios universitarios que llevan años proponiendo ideas que después acaban en producción. En ese cruce entre investigación y despliegue real se sitúa el Hao AI Lab, el grupo de la University of California San Diego (UC San Diego) que acaba de incorporar un sistema NVIDIA DGX B200 para acelerar su trabajo en inferencia de LLMs (Large Language Models).
El movimiento no se queda en una mera “actualización de hardware”. El DGX B200 pasa a estar disponible no solo para el propio laboratorio, sino para la comunidad más amplia de UC San Diego a través del San Diego Supercomputer Center (SDSC), dentro de la School of Computing, Information and Data Sciences. En otras palabras: más manos, más proyectos y más iteración, con un recurso de alto rendimiento en el centro.
Del laboratorio a la producción: Dynamo, DistServe y el problema de la latencia
La clave de fondo es que muchas plataformas de inferencia que hoy operan en entornos productivos se apoyan en conceptos nacidos en este tipo de investigación. En el caso del Hao AI Lab, NVIDIA destaca explícitamente que ideas del grupo han influido en sistemas de inferencia actuales, y menciona como ejemplos NVIDIA Dynamo y el proyecto DistServe.
En el día a día, el dilema es conocido por cualquiera que haya operado un servicio de IA: maximizar el rendimiento agregado del sistema sin que el usuario final “sienta” que el modelo se vuelve lento. Cuando se ajusta un motor para sacar más tokens por segundo, la latencia suele sufrir; cuando se fuerza una latencia estricta, el throughput se resiente. Es el tira y afloja clásico entre coste y experiencia.
Ahí entra el concepto que DistServe pone sobre la mesa: medir y optimizar “goodput”, una métrica que no se conforma con contar tokens por segundo, sino que incorpora el cumplimiento de objetivos de latencia (SLOs) como parte de la definición de “lo que cuenta”. En términos simples: producir mucho, sí, pero sin saltarse el listón de latencia que el servicio promete.
Prefill y decode: separar para escalar
Uno de los puntos más llamativos del enfoque descrito es la separación de dos fases habituales del proceso de generación:
- Prefill: el sistema procesa la entrada del usuario y genera el primer token.
- Decode: se generan los tokens siguientes, uno tras otro, en la fase de “continuación”.
Durante años, ambas etapas se han ejecutado en la misma GPU. Según explica el equipo, ponerlas juntas hace que compitan por recursos, y eso puede penalizar el tiempo de respuesta que percibe el usuario. La alternativa es dividir la carga: asignar prefill a un conjunto de GPUs y decode a otro, reduciendo interferencias y mejorando ese “goodput” que combina rendimiento y latencia.
NVIDIA enmarca esta estrategia dentro de lo que denomina disaggregated inference (inferencia desagregada) y afirma que Dynamo, como framework open source orientado a escalar inferencia generativa con eficiencia y bajo coste, permite precisamente escalar este tipo de arquitectura.
Dos proyectos concretos: FastVideo y Lmgame-bench
Más allá de la teoría, el DGX B200 llega con tareas muy concretas sobre la mesa. NVIDIA señala dos líneas de trabajo que el sistema está acelerando en el Hao AI Lab:
FastVideo. El proyecto entrena una familia de modelos de generación de vídeo con una meta especialmente ambiciosa: producir un vídeo de cinco segundos a partir de un prompt de texto… en cinco segundos. En su fase de investigación, el trabajo se apoya también en GPUs NVIDIA H200 además del DGX B200.
Lmgame-bench. En lugar de benchmarks tradicionales, este banco de pruebas pone a los LLMs a enfrentarse a juegos online populares como Tetris y Super Mario Bros. La propuesta permite probar un modelo en solitario o enfrentar dos modelos entre sí para comparar desempeño. Es un enfoque que busca medir capacidades en entornos interactivos, con reglas, objetivos y presión por reaccionar en tiempo real.
A esto se suman “otros proyectos en curso” orientados a empujar el servicio de LLM hacia la respuesta en tiempo real, un objetivo que se repite cada vez más en productos: asistentes que no solo contesten bien, sino rápido y con estabilidad bajo carga.
“Prototipar más rápido”: el efecto inmediato del salto de infraestructura
En el anuncio aparece una idea que, aunque suene obvia, es la que suele cambiar el ritmo de un laboratorio: iterar más. Hao Zhang, profesor asistente en UC San Diego, lo resume con una frase directa: disponer de un DGX B200 permite “prototipar y experimentar mucho más rápido” que con hardware de generaciones anteriores.
Es una afirmación que, en la práctica, suele traducirse en ciclos de prueba más cortos, más experimentos por semana y más margen para explorar caminos que antes se descartaban por coste de cómputo.
Por qué importa: la próxima ola no es solo “modelos más grandes”
Este tipo de iniciativas refleja un giro que se está consolidando: el cuello de botella no siempre es entrenar modelos más grandes, sino servirlos mejor. Con la IA generativa cada vez más integrada en productos, la inferencia se convierte en infraestructura crítica: latencia, eficiencia, escalabilidad y previsibilidad pesan tanto como la calidad del modelo.
Que un laboratorio universitario refuerce su capacidad con un sistema de esta clase —y que además se integre en un centro de supercomputación accesible a más comunidad investigadora— apunta a un 2026 donde la innovación en inferencia no será un detalle técnico, sino un factor competitivo de primer orden.
Si quieres, te preparo otra versión aún más “generalista” (menos jerga, más contexto de por qué esto afecta al usuario final) o una versión más “sysadmin/devops” centrada en arquitectura (prefill/decode, SLOs, patrones de despliegue y cómo se mide goodput).
vía: blogs.nvidia



