Dia es un modelo de texto a voz (TTS) desarrollado por Nari Labs con 1.600 millones de parámetros, diseñado específicamente para generar diálogos humanos con un realismo excepcional. A diferencia de los modelos tradicionales que generan voz frase a frase o requieren múltiples pasos, Dia produce conversaciones completas en una única inferencia, incluyendo expresiones no verbales como risas o suspiros, y permite controlar tono y emoción mediante audio de referencia.
¿Qué hace especial a Dia?
Dia no es un generador de voz genérico: está diseñado para reproducir diálogos naturales entre varios interlocutores, con la posibilidad de alternar voces, insertar pausas realistas y generar contenido emocional. Algunas de sus características principales incluyen:
- Generación de diálogo estructurado con etiquetas de hablante (
[S1]
,[S2]
) - Soporte para expresiones no verbales como
(laughs)
,(sighs)
,(coughs)
- Control de tono y voz mediante muestras de audio (clonación de voz)
- Inferencia en una sola pasada, lo que permite mantener coherencia y ritmo
Características clave
Diálogos multivoz
El modelo reconoce etiquetas [S1]
y [S2]
para alternar entre voces. Por ejemplo:
[S1] Hola, ¿cómo estás? [S2] Bien, gracias. (ríe) [S1] Me alegra escucharlo.
Es importante comenzar siempre con [S1]
y alternar correctamente para evitar resultados incoherentes.
Sonidos no verbales
Dia permite añadir efectos sonoros que enriquecen la experiencia. Entre los más comunes:
(laughs)
,(clears throat)
,(coughs)
,(sighs)
,(groans)
,(screams)
,(applause)
,(sneezes)
,(whistles)
Estos deben usarse con moderación para evitar artefactos.
Clonación de voz
Puede imitar una voz específica si se proporciona una muestra de audio de entre 5 y 10 segundos junto con su transcripción estructurada. Dia aprende el tono, ritmo y timbre, y los aplica al texto posterior.
Rendimiento y requisitos
Probado en una GPU RTX 4090, Dia ofrece los siguientes ratios de velocidad:
Precisión | Factor tiempo real con compilación | Sin compilación | Memoria VRAM |
---|---|---|---|
float16 | 2,2x | 1,3x | ~10 GB |
bfloat16 | 2,1x | 1,5x | ~10 GB |
float32 | 1,0x | 0,9x | ~13 GB |
Una versión cuantizada está en camino para reducir requisitos de memoria.
Instalación y uso
Instalación vía pip
pip install git+https://github.com/nari-labs/dia.git
Ejecución del interfaz Gradio
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
O manualmente:
python -m venv .venv
source .venv/bin/activate
pip install -e .
python app.py
Uso en Python
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B", compute_dtype="float16")
texto = "[S1] Este es Dia. [S2] Increíble, suena muy real. (suspira)"
salida = model.generate(texto, use_torch_compile=True)
model.save_audio("dialogo.mp3", salida)
Casos de uso
- Generación de voces para videojuegos, cine, doblaje y podcasts
- Asistentes virtuales con capacidad de conversación natural
- Simuladores de conversación y herramientas educativas
- Narración de audiolibros y contenido accesible
- Investigación en síntesis de voz y emociones
Arquitectura del sistema
Dia está compuesto por cuatro componentes principales:
- Backend API: Desarrollado en Python y FastAPI, gestiona los endpoints REST y la integración con LLMs como Anthropic
- Frontend: Aplicación web con Next.js y React
- Contenedor de agente: Entorno Docker aislado para ejecutar herramientas y procesos (con navegador, CLI, etc.)
- Base de datos: Supabase para almacenamiento, autenticación y estado de agentes
Condiciones de uso y ética
El modelo está disponible bajo licencia Apache 2.0 y se destina a fines de investigación y uso educativo. Está prohibido su uso para:
- Suplantar la identidad de personas reales
- Crear contenido engañoso o manipulado
- Actividades ilegales o con intención de daño
Cualquier uso indebido es responsabilidad del usuario. Nari Labs rechaza cualquier uso malicioso de esta tecnología.
Cómo contribuir
Nari Labs es un equipo pequeño y está abierto a contribuciones. Puedes unirte a su comunidad en Discord o colaborar directamente en GitHub.
Conclusión
Dia representa un hito en la generación de voz mediante inteligencia artificial, ofreciendo capacidades avanzadas de diálogo y expresividad con un enfoque completamente abierto. Ya sea para crear asistentes conversacionales, generar doblaje dinámico o investigar nuevos modelos de TTS, Dia es una herramienta poderosa y accesible para desarrolladores e investigadores por igual.