
Dia-1.6Bは注目すべき オープンソースのテキスト読み上げモデル それ's オーディオ合成の期待を再構築 AI コミュニティ。
2人の学部生によって作成された ナリラボ この 1.6 億のパラメータ モデルは、外部資金なしで、ElevenLabs や Sesame CSM-1B などのプレミアム サービスに匹敵するオーディオ品質を生み出します。
このガイドでは、Dia-1.6Bについて検討します's 開発者向けの機能、実装要件、実用的なアプリケーション、 コンテンツ制作者, AI すぐに実用可能な音声技術を求めている実務家。
Dia-1.6Bとは何ですか?なぜ話題になっているのですか?
Dia-1.6Bは、プレーンテキストから超リアルで表現力豊かな会話を生成するために設計された、最先端のオープンソースTTSモデルです。ロボットのような文章を吐き出すだけの多くのTTSモデルとは異なり、Dia-1.6Bは以下の機能を備えています。

- 複数のスピーカーを扱う 次のようなシンプルなタグを使う
[S1],[S2], etc. - 非言語的な合図を生成する 笑い声、咳、ため息などを台本どおりに再現します。
- 声を複製して感情やトーンをコントロールする 条件付けによって オーディオサンプル.
- オープンウェイトとコードを配信 Apache 2.0 に基づいているため、ベンダーやブラック ボックスに縛られることはありません。
そして、肝心なのは、このマシンを作ったのは2人の韓国人大学生であり、巨額の資金を持つシリコンバレーの研究所ではないということです。彼らはコンピューティングにGoogleのTPU Research Cloudを活用し、適切なツールがあればインディー開発者でも実力以上の成果を出せることを証明しました。
主な特徴と独自の特典
- 1.6B パラメータ: 人間の言葉、感情、タイミングの微妙なニュアンスを捉えるのに十分な筋力。
- 対話重視の設計: 単なる個別の回線ではなく、双方向の会話を処理できるように構築されています。
- スピーカータグ:
[S1],[S2]などを使用して、自然な複数話者のスクリプトを作成します。 - 非言語的音生成: 次のようなキューを挿入する
(laughs),(coughs),(sighs)、そして Dia はそれらをオーディオで生成します。 - 音声クローニング: オーディオ サンプルとトランスクリプトを入力して、特定の音声または感情に基づいて出力を調整します。
- オープンソース: 研究や教育のために自由に使用、変更、展開できます。 商業プロジェクト.
- リアルタイム推論: エンタープライズ GPU では、NVIDIA A40 で約 4000 トークン/秒というほぼリアルタイムの生成が可能になります。
Dia-1.6B は競合製品と比べてどうですか?
ディア1.6Bはすでに商業大手を上回っています イレブンラボ StudioとSesame CSM-1Bは、表現力、タイミング、そして非言語的な手がかりの扱いにおいて、優れた性能を発揮します。比較デモでは、従来のTTSシステムでは欠けている自然な会話の流れと感情的なトーンを捉える能力をユーザーから高く評価されました。
キャッチは何ですか? このモデルは現在英語のみに対応しており、特定の音声に合わせて微調整されていないため、音声調整を使用しない限り、毎回異なる音声が生成されます。しかし、オープンソースプロジェクトとしては、その結果はまさに驚異的です。
はじめに: Dia-1.6B をローカルで実行する
Dia-1.6B を実際に試してみませんか?ローカルで実行する場合でも、クラウドで実行する場合でも、ステップバイステップのガイドをご覧ください。
| ハードウェア要件 | ⬩ VRAM: 約 10 GB 必要 (Google Colab の T4 GPU が最適です) ⬩ OSの: Linux、macOS、またはWindows ⬩ Python: 3.8+ |
リポジトリをクローンして環境を設定する
bash
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
または、Google Colab を使用している場合:
パイソン
!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile
最良の結果を得るには、Colab で T4 GPU に切り替えます。
モデルの重みをダウンロード
モデルの重みはHugging Faceでホストされています。Hugging Faceのアクセストークンが必要です(こちらで作成してください)。 抱き合う顔).
パイソン
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
テキストから音声を生成する
以下は、会話と非言語的特徴を示すサンプル スクリプトです。
パイソン
text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100) # Save the audio
標準のプレーヤーまたは Jupyter/Colab 内でオーディオを再生できます。
パイソン
import IPython.display as ipd
ipd.Audio("dia_sample.mp3")
音声のクローン化と調整
ディアはサポートしています 音声クローン 音声サンプルを条件付けすることで、Hugging Face Spaceに参照音声とトランスクリプトをアップロードするか、サンプルスクリプトを使用してください。 example/voice_clone.py リポジトリから。
コード不要オプション:Dia-1.6Bをオンラインで試す
コードをいじりたくないですか?公式のHugging Face Spaceへアクセスしてください。

スクリプトを貼り付け、音声を複製したい場合は音声プロンプトを追加して、「生成」をクリックするだけです。とても簡単です。
サンプルプロジェクト: Dia-1.6B を使用した会話型ボットの構築
シンプルな対話ボットを構築するための簡単な Python の例を次に示します。
パイソン
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""
audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)
サンプル出力:
ベストプラクティスとプロのヒント
トラブルシューティングとよくある質問
なぜ私の声は世代ごとに違うのでしょうか?
Dia-1.6Bはデフォルトでは特定の音声に対して微調整されていません。出力の一貫性を保つには、リファレンスサンプルを使用したオーディオ調整機能を使用するか、固定のランダムシードを設定してみてください。
Dia-1.6Bを商用プロジェクトに使用できますか?
はい!Dia-1.6B は Apache 2.0 ライセンスの下でリリースされており、個人目的および商用目的の両方で制限なく自由に使用できます。
Dia-1.6B は英語以外の言語をサポートしていますか?
現在、Dia-1.6Bは英語の音声合成のみをサポートしています。ロードマップに従って、将来のバージョンで多言語サポートが追加される可能性があります。
複数の話者との会話を作成するにはどうすればよいですか?
台本の中で[S1]や[S2]といったシンプルなタグを使って、異なる話者を指定します。話者を追加する場合は、[S3]、[S4]といったタグを使い、キャラクターの声の一貫性を保ちながら続けてください。
Dia-1.6Bで特定の音声を複製するにはどうすればよいですか?
10~20秒の高品質な音声サンプルと正確な書き起こしを「音声プロンプト」セクションにアップロードしてください。モデルが音声の特徴を分析し、生成された出力に反映されます。
結論:Dia-1.6Bが重要な理由
Dia-1.6Bは正確な瞬間を表す AI 音声合成 「素晴らしい技術」から「業界の破壊者」へと躍進した。巨大IT企業が自社のウォールドガーデンの完成に数百万ドルを費やしていた一方で、学生たちが構築したこのモデルは静かにルールを書き換えた。プレミアムレベルの音声品質が無料になったらどうなるだろうか?感情のニュアンスを伝えるのにもはや料金がかからなくなったら?
あなたのプロジェクトに本当の声を与える準備はできていますか?
Dia-1.6Bをダウンロードしてスクリプトを起動し、コンテンツそのものを語らせましょう。何か問題が起こった場合は、 ナリラボ コミュニティはサポートとアイデアで盛り上がっています。 AI 健全な人間 - 一度に 1 つのオープンソース モデル。

