Dia es un modelo de texto a voz (TTS) desarrollado por Nari Labs con 1.600 millones de parámetros, diseñado específicamente para generar diálogos humanos con un realismo excepcional. A diferencia de los modelos tradicionales que generan voz frase a frase o requieren múltiples pasos, Dia produce conversaciones completas en una única inferencia, incluyendo expresiones no verbales como risas o suspiros, y permite controlar tono y emoción mediante audio de referencia.
¿Qué hace especial a Dia?
Dia no es un generador de voz genérico: está diseñado para reproducir diálogos naturales entre varios interlocutores, con la posibilidad de alternar voces, insertar pausas realistas y generar contenido emocional. Algunas de sus características principales incluyen:
- Generación de diálogo estructurado con etiquetas de hablante (
[S1],[S2]) - Soporte para expresiones no verbales como
(laughs),(sighs),(coughs) - Control de tono y voz mediante muestras de audio (clonación de voz)
- Inferencia en una sola pasada, lo que permite mantener coherencia y ritmo
Características clave
Diálogos multivoz
El modelo reconoce etiquetas [S1] y [S2] para alternar entre voces. Por ejemplo:
[S1] Hola, ¿cómo estás? [S2] Bien, gracias. (ríe) [S1] Me alegra escucharlo.
Es importante comenzar siempre con [S1] y alternar correctamente para evitar resultados incoherentes.
Sonidos no verbales
Dia permite añadir efectos sonoros que enriquecen la experiencia. Entre los más comunes:
(laughs),(clears throat),(coughs),(sighs),(groans),(screams),(applause),(sneezes),(whistles)
Estos deben usarse con moderación para evitar artefactos.
Clonación de voz
Puede imitar una voz específica si se proporciona una muestra de audio de entre 5 y 10 segundos junto con su transcripción estructurada. Dia aprende el tono, ritmo y timbre, y los aplica al texto posterior.
Rendimiento y requisitos
Probado en una GPU RTX 4090, Dia ofrece los siguientes ratios de velocidad:
| Precisión | Factor tiempo real con compilación | Sin compilación | Memoria VRAM |
|---|---|---|---|
| float16 | 2,2x | 1,3x | ~10 GB |
| bfloat16 | 2,1x | 1,5x | ~10 GB |
| float32 | 1,0x | 0,9x | ~13 GB |
Una versión cuantizada está en camino para reducir requisitos de memoria.
Instalación y uso
Instalación vía pip
pip install git+https://github.com/nari-labs/dia.git
Ejecución del interfaz Gradio
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
O manualmente:
python -m venv .venv
source .venv/bin/activate
pip install -e .
python app.py
Uso en Python
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B", compute_dtype="float16")
texto = "[S1] Este es Dia. [S2] Increíble, suena muy real. (suspira)"
salida = model.generate(texto, use_torch_compile=True)
model.save_audio("dialogo.mp3", salida)
Casos de uso
- Generación de voces para videojuegos, cine, doblaje y podcasts
- Asistentes virtuales con capacidad de conversación natural
- Simuladores de conversación y herramientas educativas
- Narración de audiolibros y contenido accesible
- Investigación en síntesis de voz y emociones
Arquitectura del sistema
Dia está compuesto por cuatro componentes principales:
- Backend API: Desarrollado en Python y FastAPI, gestiona los endpoints REST y la integración con LLMs como Anthropic
- Frontend: Aplicación web con Next.js y React
- Contenedor de agente: Entorno Docker aislado para ejecutar herramientas y procesos (con navegador, CLI, etc.)
- Base de datos: Supabase para almacenamiento, autenticación y estado de agentes
Condiciones de uso y ética
El modelo está disponible bajo licencia Apache 2.0 y se destina a fines de investigación y uso educativo. Está prohibido su uso para:
- Suplantar la identidad de personas reales
- Crear contenido engañoso o manipulado
- Actividades ilegales o con intención de daño
Cualquier uso indebido es responsabilidad del usuario. Nari Labs rechaza cualquier uso malicioso de esta tecnología.
Cómo contribuir
Nari Labs es un equipo pequeño y está abierto a contribuciones. Puedes unirte a su comunidad en Discord o colaborar directamente en GitHub.
Conclusión
Dia representa un hito en la generación de voz mediante inteligencia artificial, ofreciendo capacidades avanzadas de diálogo y expresividad con un enfoque completamente abierto. Ya sea para crear asistentes conversacionales, generar doblaje dinámico o investigar nuevos modelos de TTS, Dia es una herramienta poderosa y accesible para desarrolladores e investigadores por igual.



