NVIDIA Lanza Conjunto de Datos y Modelos Para IA de Voz Multilingüe

NVIDIA ha dado un paso significativo en la mejora de la tecnología de inteligencia artificial aplicada al reconocimiento y traducción de voz con la introducción de un nuevo conjunto de datos y modelos para 25 idiomas europeos. Este avance no solo abarca lenguas ampliamente habladas, sino también aquellas con menos recursos, como el croata, estonio y maltés.

La iniciativa tiene como objetivo facilitar a los desarrolladores la expansión de aplicaciones de inteligencia artificial que ofrezcan tecnología de voz rápida y precisa. Esto incluye el desarrollo de chatbots multilingües, agentes de servicio al cliente y servicios de traducción casi en tiempo real. Entre las herramientas destacadas presentadas se encuentran Granary, un corpus de datos multilingües con cerca de un millón de horas de audio; Canary-1b-v2, un modelo de mil millones de parámetros para transcripción de alta calidad; y Parakeet-tdt-0.6b-v3, diseñado para transcripciones en tiempo real o de gran volumen.

El conjunto de datos Granary y los modelos asociados se presentarán en Interspeech, una conferencia de procesamiento del lenguaje que se celebra en los Países Bajos del 17 al 21 de agosto. Granary se ha desarrollado en colaboración con investigadores de la Universidad Carnegie Mellon y la Fondazione Bruno Kessler, utilizando una innovadora línea de procesamiento de datos que produce información estructurada y de alta calidad sin necesidad de anotaciones humanas intensivas.

Este enfoque ha permitido crear un recurso fundamental para desarrollar tecnologías de voz más inclusivas, que reflejen la diversidad lingüística de Europa utilizando menos datos de entrenamiento. Los modelos Canary y Parakeet son ejemplos concretos del tipo de herramientas que se pueden construir con Granary. Canary-1b-v2 está optimizado para tareas complejas, mientras que Parakeet-tdt-0.6b-v3 se centra en la velocidad y baja latencia.

La metodología detrás del conjunto de datos y estos modelos está disponible para que la comunidad global de desarrolladores de inteligencia artificial la adapte a otros modelos o idiomas, acelerando así la innovación en este campo. Además, Canary-1b-v2 amplía los idiomas soportados de cuatro a 25, ofreciendo una calidad de transcripción y traducción comparable a modelos tres veces más grandes, pero con una velocidad de inferencia diez veces mayor.

Parakeet-tdt-0.6b-v3 se distingue por su capacidad de transcribir segmentos de audio de 24 minutos en una sola pasada, detectando automáticamente el idioma sin pasos de indicación adicionales. Ambos modelos proporcionan una salida con puntuación precisa, capitalización y marcas de tiempo a nivel de palabra, mostrando el potencial para revolucionar el ámbito de la tecnología de voz.
Fuente: Zona de blogs y prensa de Nvidia

Scroll al inicio