Tencent lanza Hunyuan-Large, un modelo de lenguaje de código abierto para competir con los grandes

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Tencent ha dado un nuevo paso en el ámbito de la inteligencia artificial con el lanzamiento de Hunyuan-Large, un modelo de lenguaje de código abierto que promete competir de cerca con modelos avanzados como el Llama-405B. Este nuevo modelo combina una estructura a gran escala con una arquitectura Mixture-of-Experts (MoE), optimizando tanto el rendimiento como la eficiencia.

Un modelo que apuesta por la eficiencia

Hunyuan-Large cuenta con un total de 389.000 millones de parámetros, aunque solo activa 52.000 millones en cada operación, lo que permite reducir significativamente el consumo de recursos sin sacrificar el rendimiento. Esta eficiencia se logra a través de innovadoras estrategias de enrutamiento y técnicas avanzadas de tasa de aprendizaje, que permiten al modelo seleccionar solo los expertos necesarios para cada tarea, optimizando así su uso de parámetros activos.

Rendimiento sobresaliente en benchmarks

El modelo de Tencent ha sido entrenado en un conjunto de datos de 7 billones de tokens, de los cuales 1,5 billones son datos sintéticos, con el objetivo de alcanzar un rendimiento de vanguardia en áreas como matemáticas, programación y razonamiento lógico. En el popular benchmark MMLU, Hunyuan-Large alcanzó una precisión del 88,4 %, superando al modelo LLama3.1-405B, que obtuvo un 85,2 %. Este resultado es notable, considerando que el modelo de Tencent utiliza menos parámetros activos, lo que demuestra la eficacia de su arquitectura Mixture-of-Experts.

Soporte para contextos largos: hasta 256.000 tokens

Una de las características más destacadas de Hunyuan-Large es su capacidad para manejar contextos extensos de hasta 256.000 tokens, el doble de lo que ofrecen modelos rivales de similar tamaño. Esto es posible gracias a técnicas especializadas de entrenamiento en contextos largos, lo que permite al modelo procesar textos y documentos mucho más extensos sin perder precisión, ideal para aplicaciones avanzadas que requieren un análisis detallado de grandes volúmenes de información.

Un paso hacia la eficiencia en los sistemas de IA

El lanzamiento de Hunyuan-Large marca un avance significativo en el desarrollo de modelos de lenguaje a gran escala de código abierto. En un contexto donde la tendencia ha sido hacer modelos cada vez más grandes, la estrategia de Tencent sugiere que el futuro podría estar en desarrollar sistemas más eficientes, en lugar de simplemente aumentar el tamaño de los modelos. Los resultados de Hunyuan-Large, con su innovador enfoque en parámetros activos y su arquitectura modular, podrían redefinir cómo se conciben los sistemas de inteligencia artificial de alto rendimiento.

Implicaciones para el futuro del código abierto

La llegada de Hunyuan-Large también representa un hito importante para la comunidad de IA de código abierto, al ofrecer una alternativa sólida y de alto rendimiento a los modelos cerrados de gran escala. Tencent ha dejado claro que su apuesta por la eficiencia y la optimización abre nuevas oportunidades para los desarrolladores y expertos en IA, quienes ahora cuentan con una herramienta avanzada para explorar aplicaciones en ámbitos tan diversos como el análisis de datos, la automatización de tareas complejas y la investigación en inteligencia artificial.

Con Hunyuan-Large, Tencent no solo demuestra su compromiso con la innovación en inteligencia artificial, sino que también invita a la comunidad tecnológica a repensar las posibilidades de desarrollo eficiente y sostenible en el ámbito de los modelos de lenguaje de gran escala.

Más información en GitHub y web oficial.

2411.02265v2 Descarga

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.