La avalancha de proyectos de inferencia a escala ha desatado una tormenta perfecta en la cadena de suministro de almacenamiento. Proveedores y analistas del ecosistema asiático confirman que los HDD nearline —la columna vertebral del “storage cálido” en centros de datos— acumulan plazos de entrega superiores a 2 años. Ante el cuello de botella, los grandes CSP de Norteamérica y China están firmando contratos a 2026 y redireccionando presupuesto a SSD empresariales de gran capacidad, pese a un coste por terabyte 3–4 veces superior al del HDD. El segundo impacto llega del lado flash: parte de la capacidad de QLC NAND prevista para 2026 ya se habría comprometido, y el sector asume que, como pronto en 2027–2028, los bits QLC superarán a TLC a escala global.
Para un medio de IA, esta no es una noticia “de semiconductores” más: es un cambio de condiciones de contorno que obliga a rediseñar arquitecturas de inferencia, RAG y vector stores, revisar SLOs de latencia y disponibilidad, y, sobre todo, a replantear la economía del dato en la era de los modelos fundacionales.
Por qué la IA de hoy presiona al almacenamiento de ayer
Durante el ciclo de entrenamiento masivo, el cuello de botella estuvo —y sigue estando— en HBM, GPU y redes de interconexión. Pero la transición de foco hacia inferencia trae otra física: miles de millones de objetos, embeddings, documentos enriquecidos, gráficos de conocimiento y contenidos multimedia que deben estar a uno o dos saltos de la CPU/GPU para evitar que el token throughput se desplome. Esa capa “cálida” —ni fría como el archivo ni ardiendo como la memoria— se soporta tradicionalmente con HDD nearline porque ofrece el mejor €/TB posible.
El problema es simple y brutal: no hay HDD suficientes. El mercado está hiperconcentrado, funciona por pedido y no puede “abrir grifo” con rapidez. El resultado es una cola que ya se mide en años. Para no frenar lanzamientos, los CSP están saltando a QLC SSD de 64–256 TB, incluso con series de 128–256 TB QLC en Norteamérica y 64–128 TB en China, y eso está vacío el cupo de 2026 en varias fundiciones.
Efectos inmediatos en precios y disponibilidad
- SSD empresariales y NAND: +20 % en 4T; algunos modelos de SSD ya suben 30–40 %.
- NAND: fabricantes que negociaban por trimestre pasan a semanas (caso Micron); otros advierten de falta de stock (Kioxia); Samsung Xi’an está en transición de V6 → V8, con salida limitada en el primer semestre y rampa en el segundo.
- Recortes previos de producción (≈ 10–15 % desde finales de 2024) aún no se han revertido por completo: la priorización hacia servidores desplaza capacidad desde consumo.
El cuadro general, según directivos de la cadena de suministro, es inédito: HDD, NAND y DRAM están tensionados a la vez, con tres trimestres de subidas acumuladas y un suelo de precios alto que podría sostenerse hasta 2026.
Arquitectura para IA en tiempos de escasez: patrones que funcionan
1) Tiering agresivo y consciente de la IA
- Hot (GPU/CPU): cachés en RAM y NVMe TLC con baja latencia para token caches, KV caches y artefactos de serving; pinning selectivo de modelos afinados.
- Warm (QLC SSD): embeddings, índices de vector DB, parquets/Arrow, multimedia preprocesado, snapshots de colecciones de RAG. Aquí llega el gran cambio: habrá que diseñar para QLC (ver más abajo).
- Cool (HDD nearline o cinta): corpus históricos, versionado de datasets, copias de seguridad y retención legal. Dado el lead time de HDD, conviene preasignar cupos y plantear archivo en cinta como válvula de escape.
2) QLC como “warm tier”: cómo hacerlo bien (y no morir en el intento)
El QLC (4 bits por celda) ofrece densidad y coste imbatibles en flash, pero endurance y WAF (write amplification factor) exigen ingeniería:
- ZNS/Zone append (si el controlador lo permite): con Zoned Namespace se reduce WAF al escribir de forma secuencial por zonas, ideal para ingesta de embeddings y logs de vector DB.
- Over-Provisioning generoso** (p. ej., +10–20 %)** y write shaping: absorber ráfagas y reordenar escrituras fuera de horario.
- Compacción/merges programados**: en HNSW/IVF, calendarizar reconstrucciones y compactaciones fuera del pico; limitar merges en caliente.
- DWPD realista: un QLC de gran capacidad suele operar con DWPD bajos (0,1–0,3). Ajustar políticas de retención, TTL e ingesta para no agotar vida útil.
- Telemetría: monitorear SMART ampliado, lecturas perturbadoras, bloques remapeados y latencia p95/p99 bajo carga de RAG; automatizar retirada preventiva.
3) Vector DB y RAG con cabeza
- Retrieval híbrido (BM25 + vector) para reducir llamadas vectoriales cuando no aportan señal; re-rank ligero antes de golpear al LLM.
- Chunking de 800–1.200 tokens con solapado corto (100–200), y metadatos ricos (fuente, versión, ACL).
- ACL-aware retrieval: filtrar por permisos antes de buscar, no después.
- Parquet/Arrow para features y tabulares; S3-compatible con erasure coding para colecciones voluminosas y snapshots (cuidado con p99 latencia).
- NVMe/TCP para exponer pools QLC al cómputo de forma desagregada; reservar NFS para datos compartidos de menor intensidad.
4) Cuellos de latencia: dónde se gana más por euro
- Primera respuesta (TTFT) y latencias p95/p99 mandan. Aprovechar cuantización (INT4/FP8), KV cache sharing, especulative decoding y prefill optimization para reducir tokens y aliviar presión del storage.
- Cachés jerárquicas (RAM → TLC → QLC) con admisión inteligente (no todo merece subir) y capas por tipo de consulta (frecuentes vs. exploratorias).
- Cercanía física: colocar QLC de colecciones calientes en el mismo rack que el cómputo o muy cerca (1–2 saltos) y empujar archivo y fríos a dominios de menor coste.
Procura de capacidad: cómo negociar sin bloquear la hoja de ruta
- HDD nearline: si el plan depende de HDD, firmar ahora contratos 2026 con cláusulas de prioridad y ramp verificable.
- NAND/SSD: introducir indexación de precios o bandas en el contrato; contemplar opciones trimestrales o mensuales (caso Micron: negociación semanal) para absorber volatilidad.
- Multiproveedor: calificar varias SKUs por capacidad (64/128/192/256 TB QLC) y por controlador; validar firmware y tablas FTL en bancos de pruebas reales (RAG, vector DB, multimedia).
- Entrega escalonada: repartir llegadas por tramos trimestrales para acompasar ramp de casos de IA y evitar picos de integración.
Seguridad, fiabilidad y TCO en el mundo QLC
- RAID/erasure centrados en reconstrucción rápida (y red preparada): tiempos largos en degradación matan SLOs de inferencia.
- Scrubbing periódico y verificación de integridad a nivel de objeto/registro; hashes en metadatos de vector DB.
- DLP/retención: en inferencia y RAG proliferan duplicados. Políticas de lifecycle agresivas reducen TB “zombies” que se pagan varias veces en 2025–2026.
- Coste total: aceptar €/TB más alto en QLC si la alternativa es parálisis por falta de HDD. El TCO debe ponderar riesgo de ruptura de servicio, latencia y time-to-market, no sólo coste unitario.
¿Hacia dónde va el almacenamiento de IA?
Tres tendencias apuntan el camino:
- QLC como default en “warm”: con yield mejorado y más capas por pila, QLC gana ventaja estructural en coste. El sector ya asume que sus bits superarán a TLC entre 2027–2028.
- PLC (5 bits/celda): podría aparecer en nichos en 2027–2028. Trae densidad, pero también retos de fiabilidad/vida que exigirán cargas muy controladas.
- Interconexión óptica y CPO: la presión de IA empuja a óptica integrada en el rack; aunque es un tema de red, su efecto en latencia y pJ/bit afecta directamente a cómo se ubican y sirven los datos.
En ese contexto, el HDD seguirá reinando en retención por €/TB, pero la escasez y los plazos extendidos lo convertirán, de facto, en una capacidad “reservada” por contratos. Para el día a día de inferencia, QLC SSD será el puente inevitable.
Qué hacer mañana si se lidera una plataforma de IA
- Recalibrar SLOs: documentar p50/p95/p99 y TTFT con el mix real (QLC + TLC + RAM); publicar a negocio los nuevos SLA.
- Repriorizar ingesta: mover datos fríos a archivo; compactar embeddings; reducir chunking redundante; deduplicar por hash.
- Ajustar presupuestos: incorporar escenarios de +20–40 % en SSD y lead time largo en HDD; justificar QLC como seguro industrial frente a riesgo de parón.
- Acelerar pruebas: bake-offs de QLC con ZNS, NVMe/TCP, RAID/erasure y vector DB bajo carga RAG; definir la política de merges y de scrubbing.
Preguntas frecuentes
¿Por qué la escasez de HDD afecta tanto a la IA de inferencia?
Porque la inferencia necesita una enorme capa cálida para embeddings, documentos y multimedia “casi en línea”. Esa capa se ha soportado históricamente con HDD nearline por €/TB. Con plazos > 2 años, la única vía de corto plazo es QLC SSD, aunque el coste por TB sea mayor.
¿Es seguro usar QLC SSD para RAG y vector stores a gran escala?
Sí, con ingeniería: ZNS/zone append, over-provisioning, compacciones programadas, DWPD realista, telemetría y RAID/erasure con reconstrucción rápida. QLC no es “para todo”, pero es adecuada para warm data de inferencia si se respetan límites de escritura.
¿Qué subida de precios y plazos hay que asumir?
En 4T, SSD empresariales/NAND suben > 20 % (algunos hasta 30–40 %). HDD opera con lead times de > 2 años. Es prudente indexar contratos y escalonar entregas, y reservar por adelantado capacidad 2026.
¿Cuándo superará QLC a TLC y qué hay de PLC?
El sector proyecta que los bits QLC superarán a TLC entre 2027–2028 por coste y densidad. PLC podría empezar a verse en productos concretos en ese mismo horizonte, con retos de fiabilidad que obligarán a casos muy dirigidos.



