Dia: el modelo TTS open source para generar diálogos ultrarrealistas en una sola pasada

Por Alan Sonny

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Dia es un modelo de texto a voz (TTS) desarrollado por Nari Labs con 1.600 millones de parámetros, diseñado específicamente para generar diálogos humanos con un realismo excepcional. A diferencia de los modelos tradicionales que generan voz frase a frase o requieren múltiples pasos, Dia produce conversaciones completas en una única inferencia, incluyendo expresiones no verbales como risas o suspiros, y permite controlar tono y emoción mediante audio de referencia.

¿Qué hace especial a Dia?

Dia no es un generador de voz genérico: está diseñado para reproducir diálogos naturales entre varios interlocutores, con la posibilidad de alternar voces, insertar pausas realistas y generar contenido emocional. Algunas de sus características principales incluyen:

Generación de diálogo estructurado con etiquetas de hablante ([S1], [S2])
Soporte para expresiones no verbales como (laughs), (sighs), (coughs)
Control de tono y voz mediante muestras de audio (clonación de voz)
Inferencia en una sola pasada, lo que permite mantener coherencia y ritmo

Características clave

Diálogos multivoz

El modelo reconoce etiquetas [S1] y [S2] para alternar entre voces. Por ejemplo:

[S1] Hola, ¿cómo estás? [S2] Bien, gracias. (ríe) [S1] Me alegra escucharlo.

Es importante comenzar siempre con [S1] y alternar correctamente para evitar resultados incoherentes.

Sonidos no verbales

Dia permite añadir efectos sonoros que enriquecen la experiencia. Entre los más comunes:

(laughs), (clears throat), (coughs), (sighs), (groans), (screams), (applause), (sneezes), (whistles)

Estos deben usarse con moderación para evitar artefactos.

Clonación de voz

Puede imitar una voz específica si se proporciona una muestra de audio de entre 5 y 10 segundos junto con su transcripción estructurada. Dia aprende el tono, ritmo y timbre, y los aplica al texto posterior.

Rendimiento y requisitos

Probado en una GPU RTX 4090, Dia ofrece los siguientes ratios de velocidad:

Precisión	Factor tiempo real con compilación	Sin compilación	Memoria VRAM
float16	2,2x	1,3x	~10 GB
bfloat16	2,1x	1,5x	~10 GB
float32	1,0x	0,9x	~13 GB

Una versión cuantizada está en camino para reducir requisitos de memoria.

Instalación y uso

Instalación vía pip

pip install git+https://github.com/nari-labs/dia.git

Ejecución del interfaz Gradio

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

O manualmente:

python -m venv .venv
source .venv/bin/activate
pip install -e .
python app.py

Uso en Python

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B", compute_dtype="float16")

texto = "[S1] Este es Dia. [S2] Increíble, suena muy real. (suspira)"
salida = model.generate(texto, use_torch_compile=True)
model.save_audio("dialogo.mp3", salida)

Casos de uso

Generación de voces para videojuegos, cine, doblaje y podcasts
Asistentes virtuales con capacidad de conversación natural
Simuladores de conversación y herramientas educativas
Narración de audiolibros y contenido accesible
Investigación en síntesis de voz y emociones

Arquitectura del sistema

Dia está compuesto por cuatro componentes principales:

Backend API: Desarrollado en Python y FastAPI, gestiona los endpoints REST y la integración con LLMs como Anthropic
Frontend: Aplicación web con Next.js y React
Contenedor de agente: Entorno Docker aislado para ejecutar herramientas y procesos (con navegador, CLI, etc.)
Base de datos: Supabase para almacenamiento, autenticación y estado de agentes

Condiciones de uso y ética

El modelo está disponible bajo licencia Apache 2.0 y se destina a fines de investigación y uso educativo. Está prohibido su uso para:

Suplantar la identidad de personas reales
Crear contenido engañoso o manipulado
Actividades ilegales o con intención de daño

Cualquier uso indebido es responsabilidad del usuario. Nari Labs rechaza cualquier uso malicioso de esta tecnología.

Cómo contribuir

Nari Labs es un equipo pequeño y está abierto a contribuciones. Puedes unirte a su comunidad en Discord o colaborar directamente en GitHub.

Conclusión

Dia representa un hito en la generación de voz mediante inteligencia artificial, ofreciendo capacidades avanzadas de diálogo y expresividad con un enfoque completamente abierto. Ya sea para crear asistentes conversacionales, generar doblaje dinámico o investigar nuevos modelos de TTS, Dia es una herramienta poderosa y accesible para desarrolladores e investigadores por igual.