Fugatto: La inteligencia artificial que revoluciona el sonido

Un equipo de investigadores en inteligencia artificial ha presentado Fugatto, una herramienta que promete cambiar el panorama del audio digital. Desarrollado por NVIDIA, este modelo generativo permite generar y transformar sonidos, música y voces con tan solo describirlos mediante texto. La versatilidad de Fugatto lo posiciona como el «cuchillo suizo del sonido», superando a otros modelos que se limitan a tareas específicas como componer canciones o modificar voces.

Una nueva dimensión en la creación de audio

Fugatto, cuyo nombre completo es Foundational Generative Audio Transformer Opus 1, se destaca por su capacidad de trabajar con cualquier combinación de texto y archivos de audio. Desde crear fragmentos musicales basados en instrucciones escritas hasta modificar acentos o emociones en una voz, el modelo puede incluso generar sonidos nunca antes escuchados, como un saxofón que maúlla o un trueno que se mezcla con el canto de los pájaros al amanecer.

«Es una locura», comentó Ido Zmishlany, productor y compositor multi-platino, y cofundador de One Take Audio, empresa miembro del programa NVIDIA Inception. «La posibilidad de crear sonidos completamente nuevos en el estudio es algo increíble».

Innovación con impacto global

Rafael Valle, director de investigación en audio aplicado en NVIDIA y uno de los creadores de Fugatto, explicó: «Nuestro objetivo era desarrollar un modelo que comprendiera y generara sonidos de la misma manera que los humanos». Fugatto, el primer modelo generativo fundacional para audio, combina tareas de generación y transformación, mostrando propiedades emergentes que amplían sus capacidades más allá de las tareas para las que fue entrenado.

Casos de uso: de la música al aprendizaje de idiomas

La versatilidad de Fugatto lo convierte en una herramienta valiosa para múltiples sectores:

  • Producción musical: Los productores pueden experimentar rápidamente con diferentes estilos, voces o instrumentos para prototipos musicales. Además, es posible mejorar la calidad de audio y añadir efectos a pistas existentes.
  • Publicidad: Las agencias pueden adaptar campañas a diferentes regiones, aplicando acentos o emociones específicos a las voces en los anuncios.
  • Educación: Herramientas de aprendizaje de idiomas podrían personalizarse con la voz de un familiar o amigo.
  • Videojuegos: Los desarrolladores pueden modificar activos de sonido pregrabados para adaptarlos a la acción en tiempo real o generar efectos directamente desde descripciones textuales.

“La historia de la música siempre ha estado ligada a la tecnología. Desde la guitarra eléctrica hasta los samplers, cada innovación ha transformado géneros enteros. Con Fugatto, estamos escribiendo el próximo capítulo”, destacó Zmishlany.

Funcionalidades avanzadas y control artístico

Entre sus capacidades más destacadas, Fugatto permite combinar atributos artísticos mediante un enfoque llamado ComposableART, donde las instrucciones pueden mezclarse libremente. Por ejemplo, es posible pedir una voz en francés con un tono melancólico, ajustando el grado de acento o tristeza según las necesidades del usuario.

Además, Fugatto puede generar sonidos que evolucionan con el tiempo, como una tormenta que avanza con truenos crecientes que se desvanecen lentamente. Incluso es capaz de crear paisajes sonoros completamente nuevos, combinando elementos no presentes en su entrenamiento.

Rohan Badlani, investigador de inteligencia artificial en NVIDIA, diseñó estas características. «Quería dar a los usuarios un control subjetivo y artístico sobre los atributos. Los resultados me sorprendieron constantemente, haciéndome sentir como un artista, aunque soy científico computacional», afirmó.

Tecnología detrás de Fugatto

Fugatto utiliza 2.500 millones de parámetros y fue entrenado con bancos de sistemas NVIDIA DGX que incluyen 32 GPUs NVIDIA H100 Tensor Core. Su desarrollo tomó más de un año y requirió generar millones de muestras de audio y crear un conjunto de datos híbrido que ampliara la diversidad de tareas.

La colaboración internacional del equipo de NVIDIA, con miembros de India, Brasil, China, Jordania y Corea del Sur, fortaleció las capacidades multilingües y multiacento del modelo.

El futuro del sonido

Los primeros resultados dejaron al equipo asombrado. «Cuando generó música por primera vez a partir de un texto, nos quedamos sin palabras», recordó Valle. Otra demostración, en la que Fugatto creó música electrónica con ladridos sincronizados al ritmo, provocó risas y entusiasmo entre los desarrolladores.

Fugatto no solo representa un avance tecnológico, sino también una herramienta que redefine cómo interactuamos con el sonido. Desde crear melodías únicas hasta modificar emociones en la voz, el modelo abre nuevas puertas a la creatividad.

fuente: Nvidia

Scroll al inicio