Meta lanza Spirit LM, un modelo multimodal que integra texto y voz en sus entradas y salidas

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Meta ha presentado su último avance en inteligencia artificial: Spirit LM, un modelo de lenguaje multimodal open source capaz de integrar y trabajar con texto y voz tanto en sus entradas como en sus salidas. Este modelo, desarrollado por el equipo de Investigación en IA Fundamental de Meta, está diseñado para superar las limitaciones de las herramientas actuales de IA centradas en la voz, mejorando la expresividad y la naturalidad de las respuestas generadas.

Un enfoque innovador en la generación de voz

Spirit LM ha sido diseñado con el objetivo de transformar las experiencias basadas en voz generadas por IA. A diferencia de los modelos convencionales que dependen del reconocimiento automático de voz (ASR) y la conversión de texto a voz (TTS), Spirit LM incorpora tokens adicionales que permiten manejar no solo la fonética, sino también el tono y el estilo de la voz. Esto facilita que el modelo capture y reproduzca emociones complejas, como el nerviosismo o la tristeza, lo que le otorga una mayor capacidad para generar interacciones humanas más naturales.

Dos versiones: Base y Expressive

El modelo se ha lanzado en dos versiones. La primera, Spirit LM Base, utiliza únicamente unidades fonéticas para procesar y generar la voz. La segunda, Spirit LM Expressive, va un paso más allá al incorporar también tokens que gestionan el tono y el estilo, permitiendo una mayor riqueza emocional en las respuestas generadas por la IA. Ambas versiones han sido entrenadas con un conjunto de datos que combina voz y texto, lo que permite que el modelo realice tareas transmodales, como la conversión de voz a texto y viceversa, mientras mantiene la expresividad de la voz humana.

Un modelo destinado a la investigación

Aunque Spirit LM representa un importante avance en el ámbito de la inteligencia artificial, su uso está limitado a fines no comerciales. Bajo la licencia FAIR Noncommercial Research, los investigadores pueden utilizar, modificar y crear derivados del modelo, siempre y cuando estos se utilicen con fines exclusivamente de investigación. Esta limitación garantiza que la herramienta se mantenga abierta y accesible para la comunidad investigadora, fomentando la exploración de nuevas maneras de integrar voz y texto en sistemas de IA.

¿Qué aplicaciones podría tener Spirit LM?

Entre las aplicaciones más destacadas de Spirit LM se encuentran el reconocimiento automático del habla, la conversión de texto a voz y la clasificación del lenguaje en función de su contenido o tono emocional. Al ofrecer una mayor precisión y expresividad en la generación de voz, este modelo también podría tener aplicaciones en asistentes virtuales, sistemas de atención al cliente automatizados, y en cualquier herramienta que requiera interacciones verbales con los usuarios.

¿El futuro de la IA multimodal?

Meta espera que Spirit LM anime a los investigadores a desarrollar nuevos métodos y aplicaciones que aprovechen la capacidad de integrar texto y voz en un mismo sistema. Con la tendencia hacia una mayor personalización y naturalidad en las interacciones con la inteligencia artificial, el lanzamiento de Spirit LM podría ser un primer paso hacia una nueva generación de IA capaz de comunicarse de manera más humana y emocional.

El lanzamiento de Spirit LM marca un hito en el desarrollo de tecnologías de inteligencia artificial multimodal, abriendo la puerta a futuras investigaciones y aplicaciones en el campo de la comunicación automatizada.

vía: GitHub