NVIDIA Lanza Conjunto de Datos y Modelos Para IA de Voz Multilingüe

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

NVIDIA ha dado un paso significativo en la mejora de la tecnología de inteligencia artificial aplicada al reconocimiento y traducción de voz con la introducción de un nuevo conjunto de datos y modelos para 25 idiomas europeos. Este avance no solo abarca lenguas ampliamente habladas, sino también aquellas con menos recursos, como el croata, estonio y maltés.

La iniciativa tiene como objetivo facilitar a los desarrolladores la expansión de aplicaciones de inteligencia artificial que ofrezcan tecnología de voz rápida y precisa. Esto incluye el desarrollo de chatbots multilingües, agentes de servicio al cliente y servicios de traducción casi en tiempo real. Entre las herramientas destacadas presentadas se encuentran Granary, un corpus de datos multilingües con cerca de un millón de horas de audio; Canary-1b-v2, un modelo de mil millones de parámetros para transcripción de alta calidad; y Parakeet-tdt-0.6b-v3, diseñado para transcripciones en tiempo real o de gran volumen.

El conjunto de datos Granary y los modelos asociados se presentarán en Interspeech, una conferencia de procesamiento del lenguaje que se celebra en los Países Bajos del 17 al 21 de agosto. Granary se ha desarrollado en colaboración con investigadores de la Universidad Carnegie Mellon y la Fondazione Bruno Kessler, utilizando una innovadora línea de procesamiento de datos que produce información estructurada y de alta calidad sin necesidad de anotaciones humanas intensivas.

Este enfoque ha permitido crear un recurso fundamental para desarrollar tecnologías de voz más inclusivas, que reflejen la diversidad lingüística de Europa utilizando menos datos de entrenamiento. Los modelos Canary y Parakeet son ejemplos concretos del tipo de herramientas que se pueden construir con Granary. Canary-1b-v2 está optimizado para tareas complejas, mientras que Parakeet-tdt-0.6b-v3 se centra en la velocidad y baja latencia.

La metodología detrás del conjunto de datos y estos modelos está disponible para que la comunidad global de desarrolladores de inteligencia artificial la adapte a otros modelos o idiomas, acelerando así la innovación en este campo. Además, Canary-1b-v2 amplía los idiomas soportados de cuatro a 25, ofreciendo una calidad de transcripción y traducción comparable a modelos tres veces más grandes, pero con una velocidad de inferencia diez veces mayor.

Parakeet-tdt-0.6b-v3 se distingue por su capacidad de transcribir segmentos de audio de 24 minutos en una sola pasada, detectando automáticamente el idioma sin pasos de indicación adicionales. Ambos modelos proporcionan una salida con puntuación precisa, capitalización y marcas de tiempo a nivel de palabra, mostrando el potencial para revolucionar el ámbito de la tecnología de voz.
Fuente: Zona de blogs y prensa de Nvidia

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

NVIDIA Lanza Conjunto de Datos y Modelos Para IA de Voz Multilingüe

Alan Sonny

Últimos artículos

Tesla desmantela su equipo Dojo y abandona el desarrollo de chips propios de IA para apoyarse en NVIDIA y Samsung

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

Tesla presenta el Robotaxi: el futuro del transporte autónomo a precio accesible

China apunta a superar a Tesla con su avance en robots humanoides

Tesla revoluciona la visión de los robots autónomos con un nuevo sistema basado en IA

Artículos relacionados

Microsoft, NVIDIA y Anthropic sellan una alianza multimillonaria para dominar la nube de la IA

Inteligencia artificial y computación cuántica: la alianza que puede transformar el mundo… y también ponerlo en jaque

Microsoft presenta Agent 365, la “torre de control” para gestionar legiones de agentes de IA en la empresa

Cómo Amazon Utiliza Agentes de IA para Apoyar la Evaluación de Cumplimiento de Miles de Millones de Transacciones Diarias

NVIDIA Anuncia Resultados Financieros del Tercer Trimestre Fiscal 2026

Anuncio del Enfoque Responsable de IA de AWS Well-Architected

Gemini 3: el nuevo modelo de Google que quiere marcar un antes y un después en la IA de uso general

Integración De Tecnologías Avanzadas De NVIDIA Y Microsoft Para Superfábricas De IA, Ciberseguridad Y IA Física

NVIDIA Lanza Conjunto de Datos y Modelos Para IA de Voz Multilingüe

Alan Sonny

Últimos artículos

Artículos relacionados

Comienza a escribir y presiona Intro para buscar