NVIDIA Presenta Avances en IA Generativa Multimodal en ICLR

NVIDIA Research impulsa el avance de la inteligencia artificial con una estrategia integral que abarca desde la infraestructura computacional hasta algoritmos y aplicaciones optimizadas. En la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), que se celebra del 24 al 28 de abril en Singapur, NVIDIA presenta más de 70 trabajos que promueven desarrollos en IA aplicados a vehículos autónomos, salud, creación de contenido multimodal, robótica y más.

Según Bryan Catanzaro, vicepresidente de investigación de aprendizaje profundo aplicado en NVIDIA, «ICLR es una de las conferencias de IA más impactantes del mundo, donde los investigadores presentan innovaciones técnicas importantes que impulsan a todas las industrias hacia adelante. La investigación que estamos contribuyendo este año tiene como objetivo acelerar cada nivel de la pila computacional para amplificar el impacto y la utilidad de la IA en todas las industrias».

Entre los trabajos presentados, destacan modelos como Fugatto, que es el modelo de inteligencia artificial generativa de audio más flexible del mundo, capaz de generar o transformar mezclas de música, voces y sonidos mediante indicaciones de texto y archivos de audio. Otros modelos de NVIDIA mejoran grandes modelos de lenguaje de audio para comprender mejor el habla.

Además, se introduce HAMSTER, que demuestra que un diseño jerárquico para modelos de visión-lenguaje-acción puede mejorar la capacidad de transferencia de conocimiento desde datos de ajuste fino que no requieren ser recolectados en hardware robótico real. Otro modelo destacado es Hymba, una familia de modelos de lenguaje pequeño que utiliza una arquitectura híbrida para mejorar la resolución de memoria, la eficiencia en la síntesis de contexto y las tareas de razonamiento común.

El modelo LongVILA destaca por su capacidad para entrenar e inferir modelos de lenguaje visual de manera eficiente, especialmente para la comprensión de videos largos. Por su parte, el modelo LLaMaFlex introduce una técnica de generación de cero disparos para crear modelos comprimidos que son tan precisos o mejores que los modelos podados o entrenados desde cero.

Otros desarrollos incluyen Proteina, que genera estructuras proteicas diversas utilizando una arquitectura de modelo transformer con hasta cinco veces más parámetros, y SRSA, un marco que permite a los robots adaptar habilidades existentes a nuevas tareas, mejorando las tasas de éxito en tareas inéditas.

Finalmente, STORM es un modelo que recrea escenas exteriores dinámicas, como coches en movimiento o árboles meciéndose al viento, logrando representaciones 3D precisas a partir de unas pocas capturas.

Estos avances de NVIDIA Research, compuestos por un equipo global de unos 400 expertos, muestran el potencial transformador de la IA en ámbitos como la arquitectura informática, la IA generativa, los gráficos, los coches autónomos y la robótica.
Fuente: Zona de blogs y prensa de Nvidia

Scroll al inicio