La compañía apuesta por infraestructuras centralizadas para modelos de razonamiento, desdibujando los límites entre entrenamiento e inferencia, y optimizando el consumo energético mediante óptica co-integrada
La industria del entrenamiento de modelos de IA ha seguido un patrón claro: agrupar tantas GPUs como sea posible, interconectarlas con redes ultrarrápidas y alimentar esos sistemas con cantidades masivas de datos. Pero con la IA generativa entrando de lleno en su era de inferencia, la pregunta clave es: ¿cómo deben ser los centros de datos optimizados para esta nueva fase?
Según Kevin Deierling, vicepresidente sénior de redes en NVIDIA, el futuro de la inferencia en IA no está en dispositivos individuales ni en pequeños despliegues en el edge, sino en grandes centros de datos centralizados, similares a los de entrenamiento, pero ahora reutilizados con nuevos fines.
De la inferencia simple al razonamiento escalado
Deierling destaca que la industria ha subestimado el impacto de los modelos de razonamiento, que ya no devuelven una respuesta inmediata como en la inferencia tradicional (one-shot inference), sino que «piensan» a través de múltiples posibilidades para encontrar la mejor. Este tipo de inferencia requiere múltiples GPUs trabajando en paralelo, incluso para modelos considerados «pequeños», como DeepSeek R1, con 671.000 millones de parámetros.
Este proceso, denominado test-time scaling, supone destinar más recursos computacionales en la fase de inferencia para mejorar la calidad de las respuestas generadas. Si a eso se le suman cargas de trabajo agénticas, donde varios agentes de IA cooperan con sus propios conjuntos de datos y tareas autónomas, las necesidades de computación y red se disparan aún más.
La convergencia de entrenamiento e inferencia
En lugar de construir clústeres separados para entrenamiento e inferencia, NVIDIA observa una consolidación en las infraestructuras. Los clientes están reutilizando clústeres diseñados para entrenamiento para ejecutar inferencia a gran escala, cambiando la percepción inicial de que la inferencia requería menos red y menos capacidad.
«Estamos viendo que la inferencia no solo necesita mucha red, sino que requiere escalabilidad similar o incluso mayor que el entrenamiento», afirma Deierling.
Silicio fotónico y óptica co-integrada: la apuesta de NVIDIA por eficiencia energética
Ante el crecimiento exponencial de GPUs en los centros de datos, el principal cuello de botella no es el coste, sino el presupuesto energético. Para aliviar este problema, NVIDIA apuesta por Co-Packaged Optics (CPO), una tecnología que integra la óptica dentro del chip de red, eliminando transceptores externos y reduciendo significativamente el consumo.
- Ahorro estimado: entre 30 y 50 % en consumo de red.
- Reducción de transceptores: de hasta 4 veces.
- Mejora en fiabilidad: menos componentes, menor riesgo de fallo humano al manipular hardware denso.
Además de reducir la huella energética, CPO simplifica la arquitectura y mejora la resiliencia operativa, lo que resulta esencial cuando se manejan decenas o cientos de miles de GPUs.
Redes ópticas más allá del rack: interconexión de data centers
Actualmente, NVIDIA combina interconexiones de cobre dentro del rack (NVLink) con enlaces ópticos entre racks, pero prevé un futuro totalmente óptico. Ya se están desplegando centros de datos interconectados para tareas de entrenamiento multiclúster, y la distancia entre ellos —de 100 metros a varios kilómetros— se convierte en un factor estratégico.
Aunque para cargas humanas la latencia de hasta 200 ms es tolerable, las inferencias agénticas, en las que múltiples AIs se comunican entre sí, requieren latencias inferiores al milisegundo. Por ello, NVIDIA prevé que estas cargas seguirán ubicadas en centros de datos centralizados, con una última conexión rápida al usuario.
Conclusión: infraestructuras cuánticas para inferencias inteligentes
La visión de NVIDIA marca un punto de inflexión: la inferencia ya no es una fase ligera y deslocalizada, sino un proceso intensivo, distribuido y altamente dependiente de redes rápidas y eficientes. En este nuevo paradigma, las infraestructuras optimizadas para entrenamiento se convierten en plataformas de inferencia, apoyadas en innovaciones como CPO, silicio fotónico y arquitecturas de red escalables.
La era de la inferencia intensiva ha comenzado, y con ella, la necesidad de redefinir cómo se construyen y operan los centros de datos del futuro.
vía: DCD