Machine Learning, Notas de prensa, Noticias
18/12/2025

Un superordenador de IA para la inferencia: UC San Diego impulsa el trabajo del Hao AI Lab con un NVIDIA DGX B200

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La carrera por servir modelos de lenguaje a gran escala con latencias cada vez más bajas no se está decidiendo solo en las grandes tecnológicas. También se cocina en laboratorios universitarios que llevan años proponiendo ideas que después acaban en producción. En ese cruce entre investigación y despliegue real se sitúa el Hao AI Lab, el grupo de la University of California San Diego (UC San Diego) que acaba de incorporar un sistema NVIDIA DGX B200 para acelerar su trabajo en inferencia de LLMs (Large Language Models).

El movimiento no se queda en una mera “actualización de hardware”. El DGX B200 pasa a estar disponible no solo para el propio laboratorio, sino para la comunidad más amplia de UC San Diego a través del San Diego Supercomputer Center (SDSC), dentro de la School of Computing, Information and Data Sciences. En otras palabras: más manos, más proyectos y más iteración, con un recurso de alto rendimiento en el centro.

Del laboratorio a la producción: Dynamo, DistServe y el problema de la latencia

La clave de fondo es que muchas plataformas de inferencia que hoy operan en entornos productivos se apoyan en conceptos nacidos en este tipo de investigación. En el caso del Hao AI Lab, NVIDIA destaca explícitamente que ideas del grupo han influido en sistemas de inferencia actuales, y menciona como ejemplos NVIDIA Dynamo y el proyecto DistServe.

En el día a día, el dilema es conocido por cualquiera que haya operado un servicio de IA: maximizar el rendimiento agregado del sistema sin que el usuario final “sienta” que el modelo se vuelve lento. Cuando se ajusta un motor para sacar más tokens por segundo, la latencia suele sufrir; cuando se fuerza una latencia estricta, el throughput se resiente. Es el tira y afloja clásico entre coste y experiencia.

Ahí entra el concepto que DistServe pone sobre la mesa: medir y optimizar “goodput”, una métrica que no se conforma con contar tokens por segundo, sino que incorpora el cumplimiento de objetivos de latencia (SLOs) como parte de la definición de “lo que cuenta”. En términos simples: producir mucho, sí, pero sin saltarse el listón de latencia que el servicio promete.

Prefill y decode: separar para escalar

Uno de los puntos más llamativos del enfoque descrito es la separación de dos fases habituales del proceso de generación:

Prefill: el sistema procesa la entrada del usuario y genera el primer token.
Decode: se generan los tokens siguientes, uno tras otro, en la fase de “continuación”.

Durante años, ambas etapas se han ejecutado en la misma GPU. Según explica el equipo, ponerlas juntas hace que compitan por recursos, y eso puede penalizar el tiempo de respuesta que percibe el usuario. La alternativa es dividir la carga: asignar prefill a un conjunto de GPUs y decode a otro, reduciendo interferencias y mejorando ese “goodput” que combina rendimiento y latencia.

NVIDIA enmarca esta estrategia dentro de lo que denomina disaggregated inference (inferencia desagregada) y afirma que Dynamo, como framework open source orientado a escalar inferencia generativa con eficiencia y bajo coste, permite precisamente escalar este tipo de arquitectura.

Dos proyectos concretos: FastVideo y Lmgame-bench

Más allá de la teoría, el DGX B200 llega con tareas muy concretas sobre la mesa. NVIDIA señala dos líneas de trabajo que el sistema está acelerando en el Hao AI Lab:

FastVideo. El proyecto entrena una familia de modelos de generación de vídeo con una meta especialmente ambiciosa: producir un vídeo de cinco segundos a partir de un prompt de texto… en cinco segundos. En su fase de investigación, el trabajo se apoya también en GPUs NVIDIA H200 además del DGX B200.

FastWan2.1-1.3B Demo

Lmgame-bench. En lugar de benchmarks tradicionales, este banco de pruebas pone a los LLMs a enfrentarse a juegos online populares como Tetris y Super Mario Bros. La propuesta permite probar un modelo en solitario o enfrentar dos modelos entre sí para comparar desempeño. Es un enfoque que busca medir capacidades en entornos interactivos, con reglas, objetivos y presión por reaccionar en tiempo real.

A esto se suman “otros proyectos en curso” orientados a empujar el servicio de LLM hacia la respuesta en tiempo real, un objetivo que se repite cada vez más en productos: asistentes que no solo contesten bien, sino rápido y con estabilidad bajo carga.

“Prototipar más rápido”: el efecto inmediato del salto de infraestructura

En el anuncio aparece una idea que, aunque suene obvia, es la que suele cambiar el ritmo de un laboratorio: iterar más. Hao Zhang, profesor asistente en UC San Diego, lo resume con una frase directa: disponer de un DGX B200 permite “prototipar y experimentar mucho más rápido” que con hardware de generaciones anteriores.

Es una afirmación que, en la práctica, suele traducirse en ciclos de prueba más cortos, más experimentos por semana y más margen para explorar caminos que antes se descartaban por coste de cómputo.

Por qué importa: la próxima ola no es solo “modelos más grandes”

Este tipo de iniciativas refleja un giro que se está consolidando: el cuello de botella no siempre es entrenar modelos más grandes, sino servirlos mejor. Con la IA generativa cada vez más integrada en productos, la inferencia se convierte en infraestructura crítica: latencia, eficiencia, escalabilidad y previsibilidad pesan tanto como la calidad del modelo.

Que un laboratorio universitario refuerce su capacidad con un sistema de esta clase —y que además se integre en un centro de supercomputación accesible a más comunidad investigadora— apunta a un 2026 donde la innovación en inferencia no será un detalle técnico, sino un factor competitivo de primer orden.

Si quieres, te preparo otra versión aún más “generalista” (menos jerga, más contexto de por qué esto afecta al usuario final) o una versión más “sysadmin/devops” centrada en arquitectura (prefill/decode, SLOs, patrones de despliegue y cómo se mide goodput).

vía: blogs.nvidia

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

Últimos artículos

Tesla desmantela su equipo Dojo y abandona el desarrollo de chips propios de IA para apoyarse en NVIDIA y Samsung

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

Tesla presenta el Robotaxi: el futuro del transporte autónomo a precio accesible

China apunta a superar a Tesla con su avance en robots humanoides

Tesla revoluciona la visión de los robots autónomos con un nuevo sistema basado en IA

Artículos relacionados

Un superordenador de IA para la inferencia: UC San Diego impulsa el trabajo del Hao AI Lab con un NVIDIA DGX B200

Evaluación de la capacidad de la IA para llevar a cabo tareas de investigación científica

OpenAI renueva ChatGPT Images con GPT Image 1.5: edición más precisa, generación hasta 4× más rápida y un nuevo espacio para crear

OpenAI y Amazon negocian un pacto de 10.000 millones: financiación, chips de IA y más presión sobre el “coste real” de la fiebre del cómputo

Confluent predice el futuro de la IA y el streaming de datos para 2026

Jensen Huang desvela cómo Elon Musk fue su primer gran aliado… y el origen de OpenAI tal y como la conocemos hoy

Elena Digital López

Gobernanza por Diseño: La Guía Esencial para un Escalado Exitoso de la IA

Cloudflare Radar 2025 dibuja el nuevo mapa de Internet: auge de la IA, cifrado poscuántico y DDoS a escala récord