
Dia-1.6B 是一款出色的 开源文本转语音模型 这's 重塑音频合成预期 AI 社区。
由两名本科生创建 纳里实验室 无需外部资金,这个拥有 1.6 亿参数的模型就能产生与 ElevenLabs 和 Sesame CSM-1B 等高级服务相当的音频质量。
本指南探讨了 Dia-1.6B's 开发人员的能力、实施要求和实际应用, 内容创作者和 AI 寻求可用于生产的语音技术的从业者。
Dia-1.6B是什么?为什么大家都在谈论它?
Dia-1.6B 是一款先进的开源 TTS 模型,旨在从纯文本生成超逼真、富有表现力的对话。与大多数只能输出机械句子的 TTS 模型不同,Dia-1.6B 能够:

- 处理多个发言者 使用简单的标签,例如
[S1],[S2]等等。 - 产生非语言暗示 比如笑声、咳嗽声、叹息声,以及剧本中出现的更多声音。
- 克隆声音并控制情绪/语调 通过调节 音频样本.
- 交付开放权重和代码 在 Apache 2.0 下,因此您不会被锁定在供应商或黑匣子中。
更令人吃惊的是:它是由两名韩国本科生打造的,而不是某个资金雄厚的硅谷实验室。他们利用谷歌的 TPU 研究云进行计算,证明了只要有合适的工具,独立开发者也能发挥出超乎寻常的水平。
主要特点和独特优势
- 1.6B参数: 足够的肌肉来捕捉人类言语、情感和时间的细微差别。
- 对话优先设计: 专为处理来回对话而设计,而不仅仅是孤立的线路。
- 演讲者标签: 绝大部分储备使用
[S1],[S2]等来创建自然的多说话人脚本。 - 非语言声音的产生: 插入提示,例如
(laughs),(coughs),(sighs),Dia 将在音频中生成它们。 - 语音克隆: 提供音频样本和文字记录,以根据特定的声音或情感来调节输出。
- 开源: 可免费使用、修改和部署用于研究和 商业项目.
- 实时推理: 在企业级 GPU 上,您可以获得近乎实时的生成 - 在 NVIDIA A40 上大约每秒 4000 个令牌。
Dia-1.6B 与竞争对手相比如何?
Dia-1.6B 的表现已经超越了以下商业巨头 十一实验室 Studio 和 Sesame CSM-1B 在表现力、节奏感和非语言线索处理方面均有不俗表现。在并排演示中,用户对其捕捉自然对话流程和情感基调的能力表示称赞,而这在传统的 TTS 系统中往往是缺失的。
有什么收获? 该模型目前仅支持英语,并且未针对特定语音进行微调,因此除非使用音频调节,否则每次听到的声音都会不同。但对于一个开源项目来说,其结果令人惊叹。
入门:本地运行 Dia-1.6B
准备好亲自尝试 Dia-1.6B 了吗?无论您想在本地运行还是在云端运行,这里都有分步指南。
| 硬件要求 | ⬩ VRAM: 需要大约 10GB(Google Colab 上的 T4 GPU 就很完美了) ⬩ OS: Linux、macOS 或 Windows ⬩ Python: 3.8年 |
克隆 Repo 并设置你的环境
打坏
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
或者,如果您使用 Google Colab:
蟒蛇
!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile
在 Colab 中切换到 T4 GPU 以获得最佳效果。
下载模型权重
模型权重托管在 Hugging Face 上。您需要一个 Hugging Face 访问令牌(创建于 拥抱的脸).
蟒蛇
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
从文本生成语音
以下是展示对话和非语言特征的示例脚本:
蟒蛇
text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100) # Save the audio
您可以使用任何标准播放器或在 Jupyter/Colab 中播放音频:
蟒蛇
import IPython.display as ipd
ipd.Audio("dia_sample.mp3")
语音克隆和调节
Dia 支持 语音克隆 通过调整音频样本。将参考音频和文字记录上传到 Hugging Face Space,或使用示例脚本 example/voice_clone.py 来自 repo。
无代码选项:在线试用 Dia-1.6B
不想弄乱代码?前往官方的 Hugging Face Space:

只需粘贴脚本,如果要克隆语音,请添加音频提示,然后点击生成。就这么简单。
示例项目:使用 Dia-1.6B 构建对话机器人
下面是一个构建简单对话机器人的 Python 示例:
蟒蛇
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""
audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)
样本输出:
最佳实践和专业技巧
社区与支持
故障排除和常见问题解答
为什么我的声音听起来与每一代都不同?
Dia-1.6B 默认不会针对特定语音进行微调。为了获得一致的输出,请结合参考样本使用音频调节功能,或尝试设置固定的随机种子。
我可以将 Dia-1.6B 用于商业项目吗?
是的!Dia-1.6B 根据 Apache 2.0 许可证发布,允许个人和商业用途自由使用,不受限制。
Dia-1.6B 还支持除英语以外的其他语言吗?
目前,Dia-1.6B 仅支持英语文本转语音生成。根据路线图,未来版本可能会添加多语言支持。
如何与多个发言者进行对话?
在剧本中使用 [S1] 和 [S2] 等简单标签来指定不同的说话者。对于其他说话者,请继续使用 [S3]、[S4] 等标签,并保持一致的角色声音。
如何使用 Dia-1.6B 克隆特定的声音?
将 10-20 秒的高质量音频样本及其精确的文字记录上传到“音频提示”部分。模型将分析并匹配生成的输出中的语音特征。
底线:Dia-1.6B 为何重要
Dia-1.6B 代表精确时刻 AI 语音合成 跨越了从“令人印象深刻的科技”到“行业颠覆者”的门槛。科技巨头们投入数百万美元完善他们的“围墙花园”,而这个由学生打造的模式却悄然改写了规则。当高级语音质量免费时会发生什么?当情感表达不再需要订阅费时会发生什么?
准备好让您的项目真正发出声音了吗?
下载 Dia-1.6B,启动你的脚本,让你的内容不言自明。如果你遇到任何问题, 纳里实验室 社区充满了支持和想法。让我们 AI 健全的人性——一次一个开源模型。

