Transmisión de Audio Multicanal a Amazon Transcribe Usando la API de Web Audio

Application diagram

En un avance destacado en el ámbito de la transcripción de audio, Amazon ha introducido una nueva funcionalidad en su plataforma Amazon Transcribe que permite la transmisión de transcripciones multicanal. Esta innovación facilita a los usuarios, especialmente en entornos colaborativos, la integración de múltiples fuentes de audio mediante un navegador web. La implementación se realiza utilizando la API de Web Audio de JavaScript, lo que permite conectar y combinar diversas fuentes como videos, archivos de audio o micrófonos para obtener transcripciones precisas.

El proceso detallado en el artículo se centra en el uso de dos micrófonos como fuentes de audio, fusionándolos en un solo canal estéreo que se envía a Amazon Transcribe para su transcripción. Se proporciona el código fuente para una aplicación en Vue.js, lo que subraya su adaptabilidad a diversos dispositivos y fuentes de audio.

Una ventaja clave de este método es que posibilita obtener transcripciones para dos fuentes dentro de una sola sesión, generando un ahorro de costos considerable y simplificando la recopilación de datos. No obstante, la implementación conlleva ciertos desafíos, como la identificación de hablantes mediante etiquetas que se asignan aleatoriamente al inicio de la sesión. Esto requiere que los resultados sean mapeados en la aplicación del usuario, lo cual puede ser complejo en voces similares. También existe el riesgo de superposición de voces si ambos hablantes intervienen simultáneamente. Para resolver estos problemas, se recomienda el uso de micrófonos direccionales y una adecuada gestión del volumen.

La puesta en marcha de esta solución requiere la configuración de claves de acceso a AWS. El artículo detalla los pasos necesarios para iniciar la aplicación, incluyendo la conexión de micrófonos y el procesamiento del audio mediante la API de Web Audio. Se introduce gradualmente el código necesario para fusionar y transmitir el audio a Amazon Transcribe en formato PCM.

Destaca el uso de trabajos de audio (Audio Worklet) para el procesamiento de audio de baja latencia, lo que permite no solo la fusión de canales de audio, sino también la codificación de datos en tiempo real.

En conclusión, esta nueva funcionalidad de Amazon Transcribe es una herramienta valiosa para la transcripción de audio en tiempo real. Sus aplicaciones son variadas, desde la grabación de reuniones hasta la creación de interfaces controladas por voz. Los desarrolladores y empresarios tienen ahora la oportunidad de experimentar y explorar nuevas aplicaciones con esta solución innovadora.

Scroll al inicio