En una presentación en París, el laboratorio de investigación Kyutai ha desvelado su nuevo modelo de inteligencia artificial (IA) llamado Moshi, que cuenta con capacidades vocales sin precedentes. Este avance, desarrollado en solo seis meses por un equipo de ocho personas, marca un hito en el ámbito de la IA generativa de voz.
Presentación de Moshi
Durante el evento, al que asistieron investigadores, desarrolladores, emprendedores, inversores y periodistas, los participantes pudieron interactuar directamente con Moshi, demostrando sus capacidades como coach y compañero, así como su creatividad en la encarnación de personajes en juegos de rol. La demostración interactiva estará disponible en el sitio web de Kyutai al final del día, permitiendo que cualquier persona en el mundo pueda probar esta tecnología de manera gratuita, un hecho sin precedentes para una IA de voz generativa.
Capacidades y Potencial de Moshi
Moshi permite una comunicación fluida, natural y expresiva con una IA, superando las limitaciones de los modelos anteriores. Sus capacidades de conversión de texto a voz son excepcionales, mostrando una notable capacidad para expresar emociones e interactuar con múltiples voces.
Una de las características más destacadas de Moshi es su capacidad para ser instalado localmente, permitiendo su funcionamiento seguro en dispositivos no conectados. Este aspecto garantiza que los datos sensibles no se vean comprometidos.
Contribución a la Investigación Abierta
Kyutai ha anunciado que pronto compartirá libremente el código y los pesos de los modelos de Moshi. Esta decisión, también sin precedentes para una tecnología de este tipo, permitirá a investigadores y desarrolladores estudiar, modificar, extender y especializar el modelo según sus necesidades. La comunidad podrá ampliar la base de conocimiento y factualidad de Moshi, aprovechando al máximo sus capacidades de interacción vocal.
Sobre Kyutai
Kyutai es un laboratorio sin fines de lucro dedicado a la investigación abierta en IA, fundado en noviembre de 2023 por el Grupo Iliad, CMA CGM y Schmidt Sciences. Desde su creación, ha reunido a un equipo de científicos de primer nivel, muchos de los cuales han trabajado en laboratorios de Big Tech en los Estados Unidos. Con una docena de miembros en su equipo, Kyutai lanzará sus primeras tesis doctorales a finales de este año.
El laboratorio se centra en el desarrollo de modelos de propósito general con altas capacidades, trabajando especialmente en la multimodalidad, que permite a un modelo utilizar diferentes tipos de contenido (texto, sonido, imágenes) tanto para el aprendizaje como para la inferencia. Todos los modelos desarrollados por Kyutai, así como el software y el conocimiento técnico que los sustenta, se comparten libremente para fomentar la investigación y el desarrollo en el campo de la IA.
Para realizar su trabajo y entrenar sus modelos, Kyutai utiliza el superpod Nabu 23, proporcionado por Scaleway, una subsidiaria del Grupo Iliad.
Para más información y para seguir las actualizaciones de Kyutai, visita www.kyutai.org.