Dia-1.6B：自由语音 AI 优于每月 30 美元的高级服务

指南

by 阿里

1年前 0 773

Dia-1.6B 是一款出色的 开源文本转语音模型 这's 重塑音频合成预期 AI 社区。

由两名本科生创建 纳里实验室 无需外部资金，这个拥有 1.6 亿参数的模型就能产生与 ElevenLabs 和 Sesame CSM-1B 等高级服务相当的音频质量。

本指南探讨了 Dia-1.6B's 开发人员的能力、实施要求和实际应用，内容创作者和 AI 寻求可用于生产的语音技术的从业者。

Dia-1.6B是什么？为什么大家都在谈论它？

Dia-1.6B 是一款先进的开源 TTS 模型，旨在从纯文本生成超逼真、富有表现力的对话。与大多数只能输出机械句子的 TTS 模型不同，Dia-1.6B 能够：

处理多个发言者 使用简单的标签，例如 [S1], [S2]等等。
产生非语言暗示 比如笑声、咳嗽声、叹息声，以及剧本中出现的更多声音。
克隆声音并控制情绪/语调 通过调节音频样本.
交付开放权重和代码 在 Apache 2.0 下，因此您不会被锁定在供应商或黑匣子中。

更令人吃惊的是：它是由两名韩国本科生打造的，而不是某个资金雄厚的硅谷实验室。他们利用谷歌的 TPU 研究云进行计算，证明了只要有合适的工具，独立开发者也能发挥出超乎寻常的水平。

主要特点和独特优势

1.6B参数： 足够的肌肉来捕捉人类言语、情感和时间的细微差别。
对话优先设计： 专为处理来回对话而设计，而不仅仅是孤立的线路。
演讲者标签： 绝大部分储备使用 [S1], [S2]等来创建自然的多说话人脚本。
非语言声音的产生： 插入提示，例如 (laughs), (coughs), (sighs)，Dia 将在音频中生成它们。
语音克隆： 提供音频样本和文字记录，以根据特定的声音或情感来调节输出。
开源： 可免费使用、修改和部署用于研究和商业项目.
实时推理： 在企业级 GPU 上，您可以获得近乎实时的生成 - 在 NVIDIA A40 上大约每秒 4000 个令牌。

Dia-1.6B 与竞争对手相比如何？

Dia-1.6B 的表现已经超越了以下商业巨头十一实验室 Studio 和 Sesame CSM-1B 在表现力、节奏感和非语言线索处理方面均有不俗表现。在并排演示中，用户对其捕捉自然对话流程和情感基调的能力表示称赞，而这在传统的 TTS 系统中往往是缺失的。

有什么收获？ 该模型目前仅支持英语，并且未针对特定语音进行微调，因此除非使用音频调节，否则每次听到的声音都会不同。但对于一个开源项目来说，其结果令人惊叹。

入门：本地运行 Dia-1.6B

准备好亲自尝试 Dia-1.6B 了吗？无论您想在本地运行还是在云端运行，这里都有分步指南。

硬件要求

⬩ VRAM： 需要大约 10GB（Google Colab 上的 T4 GPU 就很完美了）
⬩ OS： Linux、macOS 或 Windows
⬩ Python： 3.8年

克隆 Repo 并设置你的环境

打坏

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

或者，如果您使用 Google Colab：

蟒蛇

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

在 Colab 中切换到 T4 GPU 以获得最佳效果。

下载模型权重

模型权重托管在 Hugging Face 上。您需要一个 Hugging Face 访问令牌（创建于拥抱的脸).

蟒蛇

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

从文本生成语音

以下是展示对话和非语言特征的示例脚本：

蟒蛇

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

您可以使用任何标准播放器或在 Jupyter/Colab 中播放音频：

蟒蛇

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

语音克隆和调节

Dia 支持语音克隆通过调整音频样本。将参考音频和文字记录上传到 Hugging Face Space，或使用示例脚本 example/voice_clone.py 来自 repo。

无代码选项：在线试用 Dia-1.6B

不想弄乱代码？前往官方的 Hugging Face Space：

Dia-1.6B 演示版（拥抱面）

只需粘贴脚本，如果要克隆语音，请添加音频提示，然后点击生成。就这么简单。

示例项目：使用 Dia-1.6B 构建对话机器人

下面是一个构建简单对话机器人的 Python 示例：

蟒蛇

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

样本输出：

最佳实践和专业技巧

语音克隆： 为了获得一致的声音，请使用音频提示功能或设置随机种子。

使用演讲者标签： 始终将发言者标记为 [S1], [S2]等进行多语音对话。

利用非语言线索： 插入提示，例如 (laughs) or (sighs) 以获得更现实的输出。

语音克隆： 为了获得一致的声音，请使用音频提示功能或设置随机种子。

硬件： 为了获得最佳速度，请使用至少具有 10GB VRAM 的 GPU。CPU 支持即将推出。

伦理： 不要利用 Dia 进行身份滥用， deepfakes或欺骗性内容。其威力巨大——请负责任地使用。

社区与支持

故障排除和常见问题解答

为什么我的声音听起来与每一代都不同？

Dia-1.6B 默认不会针对特定语音进行微调。为了获得一致的输出，请结合参考样本使用音频调节功能，或尝试设置固定的随机种子。

我可以将 Dia-1.6B 用于商业项目吗？

是的！Dia-1.6B 根据 Apache 2.0 许可证发布，允许个人和商业用途自由使用，不受限制。

Dia-1.6B 还支持除英语以外的其他语言吗？

目前，Dia-1.6B 仅支持英语文本转语音生成。根据路线图，未来版本可能会添加多语言支持。

如何与多个发言者进行对话？

在剧本中使用 [S1] 和 [S2] 等简单标签来指定不同的说话者。对于其他说话者，请继续使用 [S3]、[S4] 等标签，并保持一致的角色声音。

如何使用 Dia-1.6B 克隆特定的声音？

将 10-20 秒的高质量音频样本及其精确的文字记录上传到“音频提示”部分。模型将分析并匹配生成的输出中的语音特征。

底线：Dia-1.6B 为何重要

Dia-1.6B 代表精确时刻 AI 语音合成跨越了从“令人印象深刻的科技”到“行业颠覆者”的门槛。科技巨头们投入数百万美元完善他们的“围墙花园”，而这个由学生打造的模式却悄然改写了规则。当高级语音质量免费时会发生什么？当情感表达不再需要订阅费时会发生什么？

准备好让您的项目真正发出声音了吗？
下载 Dia-1.6B，启动你的脚本，让你的内容不言自明。如果你遇到任何问题，纳里实验室社区充满了支持和想法。让我们 AI 健全的人性——一次一个开源模型。

直径-1.6B, 文本转语音模型

指南

非技术 AI 无需编程的15种工作

2天前

0 33

指南

如何构建你的第一个 AI 无需代码即可实现工作流程（每周节省数小时）

1星期前

0 65

指南

使用方法 AI 无需成为数据科学家也能进行数据分析

1星期前

0 44

发表评论取消回复

本网站使用Akismet来减少垃圾邮件。了解您的评论数据是如何被处理的。

Dia-1.6B：自由语音 AI 优于每月 30 美元的高级服务

Dia-1.6B是什么？为什么大家都在谈论它？

主要特点和独特优势

Dia-1.6B 与竞争对手相比如何？

入门：本地运行 Dia-1.6B

克隆 Repo 并设置你的环境

下载模型权重

从文本生成语音

语音克隆和调节

无代码选项：在线试用 Dia-1.6B

示例项目：使用 Dia-1.6B 构建对话机器人

最佳实践和专业技巧

社区与支持

故障排除和常见问题解答

为什么我的声音听起来与每一代都不同？

我可以将 Dia-1.6B 用于商业项目吗？

Dia-1.6B 还支持除英语以外的其他语言吗？

如何与多个发言者进行对话？

如何使用 Dia-1.6B 克隆特定的声音？

底线：Dia-1.6B 为何重要

发表评论取消回复

即刻加入 Aimojo 部落！

最佳阅读帖子

网站链接

最新活动

Dia-1.6B：自由语音 AI 优于每月 30 美元的高级服务

Dia-1.6B是什么？为什么大家都在谈论它？

主要特点和独特优势

Dia-1.6B 与竞争对手相比如何？

入门：本地运行 Dia-1.6B

克隆 Repo 并设置你的环境

下载模型权重

从文本生成语音

语音克隆和调节

无代码选项：在线试用 Dia-1.6B

示例项目：使用 Dia-1.6B 构建对话机器人

最佳实践和专业技巧

社区与支持

故障排除和常见问题解答

为什么我的声音听起来与每一代都不同？

我可以将 Dia-1.6B 用于商业项目吗？

Dia-1.6B 还支持除英语以外的其他语言吗？

如何与多个发言者进行对话？

如何使用 Dia-1.6B 克隆特定的声音？

底线：D​​ia-1.6B 为何重要

发表评论 取消回复

即刻加入 Aimojo 部落！

最佳阅读帖子

网站链接

最新活动

底线：Dia-1.6B 为何重要

发表评论取消回复