SubQ promete romper el límite del contexto largo en los modelos de IA

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Subquadratic ha salido del modo discreto con una promesa de las que obligan a mirar dos veces: SubQ 1M-Preview, un modelo de lenguaje que, según la compañía, abandona la limitación cuadrática de los transformers y permite que el coste computacional crezca de forma lineal con la longitud del contexto. Dicho en lenguaje menos académico: procesar documentos enormes, repositorios completos o historiales largos dejaría de ser prohibitivamente caro a medida que aumenta el número de tokens.

La afirmación es muy ambiciosa. Los transformers, la arquitectura que ha sostenido buena parte de la revolución de la IA generativa desde 2017, tienen una limitación conocida: la atención compara cada token con todos los demás. Por eso, cuando el contexto crece, el coste no aumenta de forma suave. Si se duplica la longitud de entrada, el número de interacciones puede crecer mucho más rápido. Esta relación ha condicionado el diseño de productos, el coste de la inferencia y la forma en que las empresas construyen aplicaciones con modelos de lenguaje.

Subquadratic asegura que su arquitectura Sparse Subquadratic Attention evita calcular la mayoría de comparaciones irrelevantes y se centra en las relaciones que realmente importan. La empresa afirma que, en un resultado de investigación con 12 millones de tokens, reduce el cómputo de atención casi 1.000 veces frente a modelos de frontera basados en atención densa. También sostiene que SubQ 1M-Preview alcanza 95 % en RULER 128K, frente al 94,8 % citado para Claude Opus 4.6, y que su atención sparse es 52 veces más rápida que FlashAttention en una comparación de arquitectura, con un 63 % menos de cómputo.

Por qué el contexto largo sigue siendo un problema real

El contexto largo se ha convertido en una de las grandes batallas de la IA. Los modelos actuales ya anuncian ventanas de cientos de miles o incluso millones de tokens, pero aceptar mucho texto no significa necesariamente usarlo bien. Muchos sistemas pierden precisión cuando la información relevante está enterrada en una entrada enorme, lejos del comienzo o del final del prompt. De ahí las pruebas tipo needle-in-a-haystack, diseñadas para comprobar si un modelo puede encontrar un dato concreto dentro de una gran cantidad de información.

La industria ha respondido a esa limitación con una arquitectura de rodeos. RAG, bases de datos vectoriales, chunking, rerankers, pipelines de recuperación, agentes coordinados, resúmenes intermedios y prompt engineering. Muchas aplicaciones empresariales no envían todo el corpus al modelo porque sería demasiado caro o poco fiable. Primero buscan fragmentos supuestamente relevantes y después los pasan al LLM.

Subquadratic plantea justo lo contrario: si el modelo puede trabajar con millones de tokens de forma eficiente, parte de esa capa de recuperación y orquestación podría simplificarse. Un agente de programación podría cargar un repositorio completo. Un sistema legal podría revisar expedientes extensos en una sola pasada. Una herramienta de investigación podría leer grandes colecciones de documentos sin depender tanto de trocear, resumir y recomponer.

La compañía ha anunciado tres productos en beta privada: una API de contexto completo para desarrolladores y empresas, SubQ Code como agente de programación por línea de comandos y SubQ Search como herramienta de búsqueda de contexto largo con capacidades de investigación profunda. En su web, Subquadratic presenta SubQ como un modelo pensado para razonar sobre hasta 12 millones de tokens, con endpoints compatibles con OpenAI y una capa para integrarse con herramientas como Claude Code, Codex y Cursor.

El caso de uso de programación es especialmente interesante. Muchos agentes actuales fallan porque no ven todo el proyecto o porque dependen de recuperar archivos de forma incompleta. Si un modelo pudiera mantener en contexto una base de código entera, meses de pull requests y documentación asociada, el trabajo de planificación, revisión y refactorización podría cambiar bastante.

Benchmarks llamativos, pero todavía con preguntas abiertas

La prudencia es obligatoria. VentureBeat resumió bien la reacción del sector: Subquadratic ha presentado una promesa enorme, pero investigadores y desarrolladores piden pruebas independientes más amplias antes de darla por demostrada. La compañía ha publicado resultados en RULER 128K, MRCR v2 y SWE-Bench Verified, pero aún faltan una model card completa, un informe técnico revisable y evaluaciones más amplias en razonamiento general, matemáticas, multilingüe, seguridad, robustez y uso real en producción.

En SWE-Bench Verified, SubQ declara un 81,8 %, frente al 80,8 % de Opus 4.6 y el 80,0 % de DeepSeek 4.0 Pro. En MRCR v2, prueba más orientada a recuperar y razonar sobre múltiples piezas de información repartidas en contexto largo, la compañía indica un resultado de investigación de 83 y un resultado de producción verificado por terceros de 65,9. Esa diferencia entre laboratorio y producto final merece atención, porque en IA los detalles de evaluación importan mucho.

VentureBeat también apunta a otro punto importante: los benchmarks publicados están muy alineados con aquello en lo que SubQ debería destacar, es decir, contexto largo y programación. Eso no invalida los resultados, pero limita su lectura. Un modelo puede ser excelente buscando información dispersa en millones de tokens y no necesariamente ser superior en todas las tareas que esperan los usuarios de un LLM generalista.

El debate recuerda a otras promesas recientes sobre contextos gigantes. Magic.dev anunció en 2024 un modelo con ventana de 100 millones de tokens y una mejora de eficiencia muy ambiciosa, pero la adopción pública posterior no ha sido comparable al ruido inicial. Esa historia no demuestra que SubQ vaya por el mismo camino, pero sí explica por qué la comunidad se muestra escéptica ante cifras tan espectaculares.

Si funciona, cambia la economía de muchas aplicaciones

El interés de SubQ no está solo en procesar más texto. Está en el coste. La inferencia ya es una de las grandes barreras para desplegar IA a escala. Cuando cada consulta larga cuesta demasiado, las empresas reducen contexto, limitan uso o descartan aplicaciones que técnicamente serían posibles pero económicamente inviables.

Si Subquadratic demuestra que puede procesar contextos muy largos con coste lineal y sin perder calidad, muchas arquitecturas actuales podrían simplificarse. Los sistemas RAG no desaparecerían, porque seguirían siendo útiles para filtrar, actualizar y gobernar información, pero dejarían de ser el parche obligatorio para cualquier problema con documentos grandes. Los agentes podrían mantener estado durante más tiempo. Las herramientas de análisis podrían conservar continuidad. Los sistemas empresariales podrían razonar sobre más datos sin construir tantas capas intermedias.

La startup también llega con financiación para intentar demostrarlo. Subquadratic ha levantado 29 millones de dólares en una ronda seed con inversores como Javier Villamizar, Justin Mateen, Grant Gittlin y Jaclyn Rice Nelson, además de inversores tempranos relacionados con Anthropic, OpenAI, Stripe y Brex. Refresh Miami recoge que el anuncio generó más de 12 millones de visualizaciones en X y más de 30.000 registros en lista de espera durante las primeras 24 horas, según la compañía.

El equipo incluye 11 investigadores y research engineers con experiencia en compañías y universidades como Meta, Google, Oxford, Cambridge, ByteDance, Adobe y Microsoft, según la propia empresa. Su CTO, Alexander Whedon, trabajó en Meta y fue responsable de IA generativa en TribeAI, mientras que Justin Dangel, consejero delegado, es un fundador en serie con experiencia en health tech, insurtech y consumo.

El reto ahora será pasar del anuncio al uso real. Una arquitectura nueva no gana solo por sus curvas de escalado. Necesita estabilidad, herramientas, documentación, pricing claro, compatibilidad con frameworks, calidad en tareas no seleccionadas, seguridad, controles empresariales y disponibilidad suficiente para clientes que quieran probarla de verdad.

SubQ puede ser una de las noticias técnicas más relevantes del año si sus resultados se validan de forma independiente. También puede quedarse en una promesa brillante si el modelo no sostiene sus cifras fuera de los benchmarks elegidos. La diferencia la marcarán las pruebas públicas, la adopción por desarrolladores y la capacidad de enseñar el informe técnico completo.

El problema que intenta resolver es real. La IA actual no solo necesita modelos más grandes o más rápidos; necesita modelos capaces de usar mucho más contexto sin disparar el coste. Si Subquadratic ha encontrado una forma práctica de hacerlo, el impacto no será incremental. Cambiará cómo se diseñan agentes, buscadores, copilotos de código y sistemas empresariales basados en documentos. Hasta que haya más evidencia, lo más sensato es mantener las dos ideas a la vez: es una propuesta muy prometedora y todavía necesita demostrar que resiste fuera del escenario de lanzamiento.

Preguntas frecuentes

¿Qué es SubQ 1M-Preview?
SubQ 1M-Preview es el primer modelo presentado por Subquadratic. La compañía lo describe como un LLM construido sobre una arquitectura completamente subcuadrática para contexto largo.

¿Qué significa que un modelo sea subcuadrático?
Significa que el coste computacional crece más despacio que en la atención tradicional de los transformers. Subquadratic afirma que su arquitectura escala linealmente con la longitud del contexto.

¿Puede procesar 12 millones de tokens?
Subquadratic asegura que su modelo de investigación trabaja hasta 12 millones de tokens y que su arquitectura reduce el cómputo de atención casi 1.000 veces frente a modelos de frontera. Falta validación independiente más amplia.

¿Sustituye SubQ a los sistemas RAG?
No necesariamente. Si funciona como promete, podría reducir la dependencia de RAG en algunos casos, pero la recuperación seguirá siendo útil para actualizar información, reducir ruido y aplicar gobierno de datos.

vía: subq.ai