Stable Audio 2.0: Innovación en la Generación de Audio IA de Stability AI

Stability AI ha lanzado recientemente Stable Audio 2.0, un modelo actualizado de generación de audio IA que promete revolucionar la industria musical. Con capacidad para crear canciones de alta calidad de hasta tres minutos de duración a partir de una simple instrucción de texto, Stable Audio 2.0 marca un hito en la generación de música asistida por inteligencia artificial.

¿Qué novedades trae?

Una de las principales innovaciones de Stable Audio 2.0 es su capacidad de generación de audio a partir de audio, permitiendo a los usuarios cargar y transformar sus propias muestras de audio mediante instrucciones. Además, esta versión expande significativamente las posibilidades de generación de efectos de sonido y la transferencia de estilo, otorgando un mayor control creativo a artistas y músicos.

Para garantizar una compensación justa a los creadores, el modelo se entrenó exclusivamente con un conjunto de datos licenciado de AudioSparx, respetando las solicitudes de exclusión para proteger los derechos de autor.

La importancia de Stable Audio 2.0

La generación de música mediante IA está avanzando a pasos agigantados, y las mejoras en calidad de audio que hemos visto en el ámbito visual están comenzando a replicarse en el audio. Stability ha lanzado un canal de radio ‘Stable Radio’ que transmite música generada por IA las 24 horas del día, sirviendo como música de fondo mientras trabajas.

Características destacadas

  • Generación de pistas completas: Stable Audio 2.0 se distingue por su capacidad para generar canciones de hasta tres minutos de duración, con una estructura coherente que incluye introducción, desarrollo y coda, además de efectos de sonido estéreo.
  • Generación de audio a partir de audio: Ahora soporta la carga de archivos de audio para transformar ideas en muestras completamente producidas. Es necesario que las cargas estén libres de material con derechos de autor, y se utiliza reconocimiento avanzado de contenido para mantener el cumplimiento y evitar infracciones.
  • Creación de variaciones y efectos de sonido: Este modelo potencia la producción de sonidos y efectos de audio, ofreciendo nuevas formas de elevar proyectos de audio.
  • Transferencia de estilo: Esta nueva función modifica el audio generado o cargado dentro del proceso de generación, permitiendo la personalización del tema de salida para alinearlo con el estilo y tono específico de un proyecto.

Investigación y salvaguardas

La arquitectura del modelo de difusión latente de Stable Audio 2.0 está diseñada para facilitar la generación de pistas completas con estructuras coherentes. Se ha adaptado todo el sistema para mejorar el rendimiento a lo largo de escalas de tiempo más largas. Al igual que el modelo 1.0, 2.0 se entrenó con datos de AudioSparx, y se asoció con Audible Magic para utilizar su tecnología de reconocimiento de contenido y evitar infracciones de derechos de autor.

¿Qué significa para el futuro de la música y la IA?

Stable Audio 2.0 representa un avance significativo en la fusión de la creatividad humana con el potencial ilimitado de la inteligencia artificial. Con la capacidad de generar música coherente y de alta calidad a partir de instrucciones de texto o muestras de audio, este modelo abre nuevas avenidas para la experimentación y la innovación en la industria musical. Al hacer accesible esta tecnología de manera gratuita en su sitio web y a través de la API de Stable Audio, Stability AI invita a artistas, músicos y creativos a explorar las posibilidades ilimitadas de la generación de audio IA.

vía: Stability AI blog

Scroll al inicio