AssemblyAI presenta Conformer-1, su modelo de reconocimiento de voz

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La empresa estadounidense AssemblyAI ha presentado Conformer-1, un modelo de reconocimiento automático del habla (ASR, por sus siglas en inglés) entrenado con 650.000 horas de audio. La compañía afirma que su sistema comete un 43 % menos de errores en grabaciones con ruido y procesa el audio un 29 % más rápido que las alternativas de referencia del mercado.

Qué es Conformer-1

Conformer-1 sigue la arquitectura Conformer publicada por Google Brain en 2020, que combina capas convolucionales con bloques de atención de tipo Transformer. La idea de mezclar ambos enfoques es capturar a la vez los patrones locales de la señal acústica (lo que hace bien una CNN) y las dependencias largas del lenguaje (lo que hace bien un Transformer).

El salto de AssemblyAI no está tanto en la arquitectura como en la escala del entrenamiento. La compañía cifra el corpus en 650.000 horas de audio etiquetado, una cantidad que sitúa a Conformer-1 en el rango de Whisper de OpenAI (680.000 horas, anunciado a finales de 2022) y muy por encima de los modelos académicos previos como wav2vec 2.0 o LibriSpeech.

Datos concretos del benchmark

AssemblyAI ha publicado dos cifras que conviene mirar con calma:

43 % menos errores en audio ruidoso: la métrica habitual para medir esto es el WER (Word Error Rate). El dato compara Conformer-1 con la generación anterior de la propia AssemblyAI sobre un conjunto de pruebas con ruido de fondo simulado.
29 % más rápido: medido en latencia de inferencia sobre la misma infraestructura, no en throughput por GPU. La cifra mejora la experiencia en transcripción casi en tiempo real.

Hay que leer estas cifras como mejoras frente a la versión previa de AssemblyAI, no como ranking absoluto de la industria. Para una comparación cruzada con Whisper o con los modelos cerrados de Google y Microsoft hace falta un benchmark independiente con conjuntos públicos como CommonVoice o LibriSpeech.

Para qué sirve un ASR mejor

El reconocimiento del habla es la pieza que conecta el audio con el resto de la pila de IA. Si la transcripción tiene errores, todo lo que viene después (resumen automático, búsqueda en vídeo, asistentes virtuales, agentes que hablan por teléfono) hereda esos fallos. Por eso un ASR robusto al ruido tiene impacto directo en negocios como centros de llamadas, podcasting, subtitulado automático y videoconferencia.

AssemblyAI vende Conformer-1 como API de pago, igual que sus modelos anteriores. La empresa compite con Whisper de OpenAI (open source), con los servicios de transcripción de AWS, Google Cloud y Azure, y con startups especializadas como Deepgram o Rev.ai. La diferenciación de AssemblyAI es ofrecer no solo transcripción, sino capas encima como detección de hablantes, análisis de sentimiento y resumen, todo desde la misma API.

El contexto del mercado ASR

El reconocimiento de voz lleva años acercándose al rendimiento humano en condiciones de laboratorio. El reto que mantiene a la industria en movimiento es el audio del mundo real: llamadas con eco, varios hablantes a la vez, acentos no estándar, micrófonos de baja calidad. Ahí los modelos genéricos siguen rindiendo peor de lo que sugieren sus métricas oficiales, y por eso cada empresa publica sus propios datos sobre escenarios ruidosos.

El movimiento general en 2023 va hacia modelos más grandes, multilingües y con capacidades extra integradas. Whisper marcó la pauta con la liberación de pesos abiertos; AssemblyAI responde con un sistema cerrado pero más rápido y, según sus números, más resistente al ruido. La carrera se decidirá por precio, latencia y la calidad real cuando entran factores como acentos minoritarios o jerga especializada.

En los últimos meses hemos visto cómo la presión por bajar costes empuja toda la pila de IA, desde el chip hasta el endpoint. Algo similar ocurre con los modelos del lado del lenguaje: Anthropic, por ejemplo, explora silicio especializado para abaratar la inferencia de Claude, y los grandes proveedores cloud empujan los modelos a producción con plataformas como Microsoft Foundry. El ASR sigue ese mismo camino: menos coste por minuto transcrito y mejor adaptación a entornos reales.

Disponibilidad

Conformer-1 está disponible a través de la API de AssemblyAI, sin paso previo por lista de espera. La compañía mantiene un nivel gratuito limitado para desarrolladores y un plan de pago con facturación por minuto procesado. El modelo trabaja sobre audio en inglés, con planes anunciados de extender la cobertura multilingüe en versiones posteriores.

Para quien siga el debate sobre cómo la IA está saliendo de la demo y entrando en infraestructura y agentes, los avances en reconocimiento del habla son una de las palancas que hacen viables los asistentes de voz, los bots telefónicos y la accesibilidad automática a gran escala.

Preguntas frecuentes

¿Qué es Conformer-1 de AssemblyAI?

Es un modelo de reconocimiento automático del habla (ASR) entrenado con 650.000 horas de audio. Convierte voz en texto y se ofrece a través de la API comercial de AssemblyAI.

¿En qué se diferencia de Whisper de OpenAI?

Whisper es un modelo abierto que se puede descargar y ejecutar en local. Conformer-1 es cerrado y solo se accede vía API. AssemblyAI presume de mejor latencia y mayor resistencia al ruido frente a su versión anterior, no frente a Whisper directamente.

¿Qué significa el 43 % menos de errores?

Es la mejora del Word Error Rate (WER) de Conformer-1 frente al modelo anterior de AssemblyAI sobre audio con ruido de fondo. No es una comparación cruzada con modelos de otras empresas.

¿Para qué casos de uso encaja?

Transcripción de llamadas, subtitulado de vídeo, asistentes de voz, análisis de podcasts y entrada de voz para agentes y bots. Cualquier flujo donde el audio se transforma en texto antes de pasar por un LLM.

¿Qué es la arquitectura Conformer?

Es un diseño publicado por Google Brain en 2020 que combina convoluciones con atención tipo Transformer. Permite captar patrones acústicos cortos y dependencias largas del lenguaje en una misma red.