Creación automática de vídeos doblados usando Amazon Translate, Amazon Bedrock y Amazon Polly

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

El doblaje de video o la localización de contenidos es el proceso de reemplazar el idioma original hablado en un video por otro idioma, mientras se sincronizan audio y video. Este método se ha convertido en una herramienta clave para superar barreras lingüísticas, mejorar la participación de la audiencia y expandir el alcance del mercado. Sin embargo, los métodos tradicionales de doblaje resultan costosos y requieren mucho tiempo, con un costo aproximado de $20 por minuto con la intervención de un revisor humano. Aquí es donde el doblaje automático mediante inteligencia artificial generativa entra en juego, ofreciendo a los creadores una solución asequible y eficiente.

En este contexto, presentamos una solución económica para el doblaje automático de video. Utilizamos Amazon Translate para la traducción inicial de los subtítulos del video y Amazon Bedrock para la post-edición, mejorando así la calidad de la traducción. Amazon Translate es un servicio de traducción automática neuronal que ofrece traducciones rápidas, de alta calidad y asequibles. Por otro lado, Amazon Bedrock es un servicio de gestión completa que ofrece una selección de modelos fundacionales de alto rendimiento de empresas líderes en IA mediante una API única y una amplia gama de capacidades para ayudar a construir aplicaciones de IA generativa con seguridad, privacidad y responsabilidad.

MagellanTV, una plataforma líder de transmisión de documentales, busca ampliar su presencia global a través de la internacionalización del contenido. Ante los desafíos del doblaje manual y los costos prohibitivos, MagellanTV buscó al socio del nivel Premier de AWS, Mission Cloud, para una solución innovadora.

La solución de Mission Cloud se destaca por su detección idiomática y reemplazo automático, escalado de tiempo automático sin interrupciones y capacidades de procesamiento por lotes flexibles con mayor eficiencia y escalabilidad. El proceso comienza con la especificación de entradas por parte del usuario en una plantilla de Excel que se carga en un bucket de Amazon S3 designado, lanzando así toda la tubería. Los resultados finales incluyen un archivo de video doblado y un archivo de subtítulos traducidos.

Utilizamos Amazon Translate para traducir los subtítulos del video y Amazon Bedrock para mejorar la calidad de la traducción y habilitar el escalado de tiempo automático para sincronizar audio y video. Amazon Augmented AI se emplea para que los editores revisen el contenido, el cual se envía luego a Amazon Polly para generar voces sintéticas para el video. Además, desarrollamos un modelo para predecir la expresión de género del hablante y asignar una expresión de género que coincida con el orador.

En el backend, AWS Step Functions orquesta los pasos anteriores como una tubería, cada paso se ejecuta en AWS Lambda o AWS Batch. Gracias a la herramienta de infraestructura como código (IaC) AWS CloudFormation, la tubería se vuelve reutilizable para el doblaje de nuevos idiomas extranjeros.

Amazon Translate se eligió por tres factores clave: su soporte para más de 75 idiomas, la buena precisión de la traducción validada por profesionales y sus beneficios únicos como la capacidad de agregar glosarios terminológicos personalizados.

Amazon Bedrock se usa para la post-edición, mejorando la calidad de los subtítulos del video después de la traducción inicial de Amazon Translate. La detección y reemplazo de idioms adapten especialmente en géneros con más conversación casual. Por ejemplo, para géneros científicos que tienen menos idioms, se puede desactivar la detección de idioms. Para géneros más informales, se activa esta función.

El algoritmo de acortamiento de oraciones desarrollado con Amazon Bedrock mejora significativamente el rendimiento del doblaje de video y reduce el esfuerzo de revisión humana, resultando en ahorro de costos.

Esta nueva y en constante desarrollo pipeline ha sido un paso revolucionario para MagellanTV, ya que resolvió eficientemente algunos desafíos comunes dentro de las empresas de medios y entretenimiento. La pipeline única desarrollada por Mission Cloud crea nuevas oportunidades para distribuir contenido a nivel mundial, ahorrando costos al usar IA generativa en conjunto con soluciones brillantes para la detección y resolución de idioms, acortamiento de oraciones y terminología y tono personalizados.
vía: AWS machine learning blog

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Alan Sonny

Escribo sobre inteligencia artificial, robótica y tecnología y sigo la actualidad y notas del sector.

Creación automática de vídeos doblados usando Amazon Translate, Amazon Bedrock y Amazon Polly

Alan Sonny

Últimos artículos

Karpathy pone palabras al “cambio de fase” del coding con LLM… y el creador de Claude Code lo lleva al extremo

Grok, la IA de xAI, solo estará disponible en Teslas con procesadores AMD Ryzen

Tesla presenta a Optimus: el robot humanoide capaz de navegar terrenos difíciles

Tesla presenta el Robotaxi: el futuro del transporte autónomo a precio accesible

China apunta a superar a Tesla con su avance en robots humanoides

Artículos relacionados

Por qué Claude se llama Claude: Shannon, lenguaje y la vieja historia de la IA

Por qué estudiar FP oficial con inteligencia artificial integrada

El caso Mythos: la IA de Anthropic que disparó las alarmas en la NSA

Meta Se Asocia Con Reliance Para Centro de Datos en India Impulsado por Inteligencia Artificial

La soberanía de la IA entra en la cuenta de resultados de las empresas

El prompt que intenta convertir a Claude en asesor crítico, no en asistente complaciente

Adobe lleva su agente creativo a Photoshop, Premiere, Illustrator e InDesign

Cómo Las Acciones De Interconexión De FERC Para Grandes Cargas Ayudan A Aliviar El Estrés De La Red Y Mejorar La Asequibilidad

Creación automática de vídeos doblados usando Amazon Translate, Amazon Bedrock y Amazon Polly

Alan Sonny

Últimos artículos

Artículos relacionados

Comienza a escribir y presiona Intro para buscar