General
10/03/2023

writeout.ai: transcripción y traducción de audio con Whisper

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

writeout.ai es una herramienta open source que envuelve el modelo Whisper de OpenAI en una interfaz web sencilla, pensada para subir archivos de audio y obtener transcripciones (y traducciones) sin instalar nada en local. El proyecto es de Marcel Pociot, lo mantiene el equipo de Beyond Code y el código está disponible en GitHub con licencia abierta para que cualquiera pueda autoalojarlo.

El planteamiento es directo, una capa Laravel sobre la API de Whisper que gestiona la cola de procesamiento, el envío del fichero a OpenAI y la entrega del resultado. No reinventa el modelo, lo hace accesible. Y eso, en un momento en el que la transcripción automática se ha vuelto un commodity para periodistas, investigadores y podcasters, tiene su valor.

Qué hay debajo: Whisper, el ASR generalista de OpenAI

Whisper es un modelo de reconocimiento automático del habla (ASR) entrenado por OpenAI con 680.000 horas de audio multilingüe etiquetado y publicado en septiembre de 2022 con pesos abiertos. Maneja unos 99 idiomas, hace transcripción palabra a palabra y, como bonus, traduce de cualquiera de esos idiomas al inglés en una sola pasada. Si quieres entender los entresijos del modelo, en noticias.ai ya cubrimos cómo funciona Whisper por dentro.

writeout.ai usa la versión gestionada vía API, así que el coste por minuto va por la tarifa pública de OpenAI (0,006 dólares por minuto en el endpoint de transcripción, sin variar por idioma). La apertura de la API de Whisper en marzo de 2023 es lo que hizo viable este tipo de aplicaciones de terceros sin necesidad de levantar GPUs propias.

Cómo funciona en la práctica

El flujo es básicamente el mismo en todas las instancias. Subes un archivo de audio (mp3, wav, m4a, webm), eliges si quieres transcribir o también traducir, marcas idioma de origen y destino y lo mandas. La aplicación encola la tarea, llama a la API de Whisper y devuelve el texto en pocos minutos según la duración del audio.

Como el resultado es texto plano, lo aprovechas igual para subtitular un vídeo, sacar transcripciones de entrevistas, alimentar un buscador interno o pasar el texto por un LLM y resumirlo. El límite lo pone tu pipeline, no la herramienta.

Para quién encaja (y para quién no tanto)

Encaja bien en equipos que quieren montar su propio servicio de transcripción bajo control: redacciones que procesan declaraciones, despachos jurídicos con grabaciones, profesionales del audiovisual que necesitan subtítulos rápido y desarrolladores que prefieren un frontend con su propia marca. Al ser open source puedes desplegarla en tu infraestructura, gestionar tus claves de OpenAI y decidir cuánto tiempo guardas los archivos.

Encaja peor cuando lo que buscas es procesar audio sin enviar nada a OpenAI. La aplicación es un wrapper, así que el fichero sale de tu servidor y va a los endpoints de la compañía. Para casos sensibles existen alternativas que ejecutan el modelo localmente, como Speakr, que corre Whisper en tu propia máquina con resúmenes y chat sobre el contenido, o Meetily, una opción autoalojada para reuniones corporativas.

Limitaciones que conviene tener claras

Whisper, por mucho que sea de los mejores ASR abiertos, alucina. Investigadores documentaron que el modelo introduce frases inventadas en huecos de silencio o en audio ruidoso, un problema que saltó cuando hospitales lo usaban para transcribir consultas médicas. Antes de meter writeout.ai en un flujo crítico (sanitario, judicial, financiero) revisa siempre la salida con ojo humano y considera procesos de doble verificación.

Otro punto, la API de Whisper acepta archivos de hasta 25 MB. Para audios largos toca trocear el fichero antes de subirlo, algo que la propia documentación de OpenAI recomienda hacer por silencios para no cortar palabras. writeout.ai no resuelve esto en su versión base, así que si vas a procesar episodios de podcast de dos horas tendrás que añadir un paso previo de segmentación.

Despliegue y código

El stack es Laravel con Livewire para el front, Tailwind para los estilos y una cola de tareas que conviene mover a Redis o a una base de datos en producción. La instalación es la típica de cualquier proyecto Laravel: clonar el repo, copiar el archivo .env, meter la clave de OpenAI, migrar la base de datos y servir con Octane o el servidor que prefieras. El código completo está en GitHub con la documentación paso a paso.

Preguntas frecuentes

¿writeout.ai es gratis?

El código es gratuito y de uso libre, pero las llamadas a la API de Whisper se facturan a OpenAI. La tarifa actual es de 0,006 dólares por minuto de audio transcrito.

¿Necesito un servidor potente para alojarlo?

No, porque el procesamiento pesado lo hace OpenAI. Con un VPS modesto que aguante Laravel y una cola Redis vas servido. La inferencia de Whisper no se ejecuta en tu máquina.

¿Qué idiomas soporta?

Los 99 idiomas del modelo Whisper de OpenAI, español incluido. Para traducción, el destino nativo es el inglés. Otras combinaciones requieren un paso adicional con otro modelo.

¿Puedo usarlo sin enviar audio a OpenAI?

No en su forma original, writeout.ai está pensado para la API gestionada. Si necesitas privacidad total, mira soluciones que ejecutan Whisper en local, como Speakr o despliegues propios con whisper.cpp.

Disponible para descargar y utilizar en GitHub.