Desarrollan un Modelo de Lenguaje que permite conversaciones en tiempo real

Investigadores en inteligencia artificial han desarrollado un innovador modelo de lenguaje, el Listening-While-Speaking Language Model (LSLM), que puede escuchar y hablar simultáneamente, avanzando significativamente en las conversaciones interactivas basadas en voz en tiempo real.

El modelo, denominado Listening-while-Speaking Language Model (LSLM), habilita el modelado full-duplex en modelos interactivos de lenguaje hablado. Este sistema utiliza un decodificador basado en tokens únicamente para la generación de texto a voz (TTS) y un codificador de aprendizaje auto-supervisado en tiempo real para la entrada de audio.

El LSLM puede detectar los turnos de conversación en tiempo real y responder a interrupciones, una característica clave de la conversación natural. En experimentos, el modelo demostró ser robusto frente al ruido y sensible a diversas instrucciones, lo que resalta su potencial para revolucionar las interacciones entre humanos e IA, haciendo que las conversaciones con máquinas se sientan verdaderamente naturales y responsivas.

Avances en la interacción humano-IA

El diálogo es la forma más natural de interacción entre humanos y computadoras. Los recientes avances en modelos de lenguaje hablado han mejorado significativamente la capacidad de la IA para mantener conversaciones basadas en voz. Sin embargo, estos modelos están limitados a conversaciones basadas en turnos, careciendo de la capacidad de interactuar en tiempo real con los humanos, especialmente cuando se trata de interrupciones durante la generación de contenido insatisfactorio.

Para abordar estas limitaciones, los investigadores han explorado el modelado full-duplex (FDM) en modelos interactivos de lenguaje hablado (iSLM), enfocándose en mejorar la interacción en tiempo real y, más explícitamente, explorando la capacidad esencial de interrupción. El diseño novedoso del LSLM, un sistema de extremo a extremo equipado con canales tanto de escucha como de habla, emplea un decodificador de TTS basado en tokens para la generación de voz y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real.

El LSLM fusiona ambos canales para la generación autoregresiva y detecta los turnos de conversación en tiempo real. Tres estrategias de fusión —fusión temprana, fusión intermedia y fusión tardía— fueron exploradas, con la fusión intermedia logrando un equilibrio óptimo entre la generación de voz y la interacción en tiempo real.

Aplicaciones y futuro del LSLM

En dos entornos experimentales, comandos basados en FDM y voces basadas en FDM, el LSLM demostró ser robusto frente al ruido y sensible a diversas instrucciones. Los resultados destacan la capacidad del LSLM para lograr una comunicación duplex con un impacto mínimo en los sistemas existentes. Este estudio busca avanzar en el desarrollo de sistemas de diálogo interactivo por voz, mejorando su aplicabilidad en contextos del mundo real.

Mientras el reciente modo de voz avanzada de ChatGPT de OpenAI nos acerca a conversaciones realistas con IA, el LSLM da un paso más allá al permitir que la IA procese el habla entrante mientras habla. Esto podría revolucionar las interacciones humano-IA, haciendo que las conversaciones con máquinas sean más naturales y eficientes.

El avance de la tecnología LSLM abre nuevas posibilidades para aplicaciones en diversas industrias, desde asistentes personales más interactivos hasta sistemas de soporte técnico más eficientes. Con la capacidad de escuchar y responder simultáneamente, la IA se está acercando cada vez más a una verdadera comprensión y participación en las interacciones humanas en tiempo real.

Para más información, puedes visitar el sitio oficial del proyecto LSLM y leer el documento de investigación completo.

Scroll al inicio