Dia-1.6B: Suara Percuma AI Itu Mengalahkan Perkhidmatan Premium $30/Bulan

by Ali

tahun 1 lalu 0 773

Dia-1.6B berdiri sebagai yang luar biasa model teks ke pertuturan sumber terbuka Bahawa's membentuk semula jangkaan sintesis audio di seluruh AI masyarakat.

Dicipta oleh dua pelajar sarjana muda di Nari Labs tanpa pembiayaan luaran, model parameter 1.6 bilion ini menghasilkan kualiti audio yang setanding dengan perkhidmatan premium seperti ElevenLabs dan Sesame CSM-1B.

Panduan ini mengkaji Dia-1.6B's keupayaan, keperluan pelaksanaan dan aplikasi praktikal untuk pembangun, pencipta kandungan, dan AI pengamal mencari teknologi pertuturan sedia pengeluaran.

Apakah Dia-1.6B? Mengapa Semua Orang Bercakap Mengenainya?

Dia-1.6B ialah model TTS sumber terbuka terkini yang direka untuk menjana dialog ultra-realistik dan ekspresif daripada teks biasa. Tidak seperti kebanyakan model TTS yang hanya mengeluarkan ayat robotik, Dia-1.6B boleh:

Mengendalikan berbilang pembesar suara menggunakan tag mudah seperti [S1], [S2], Dll
Hasilkan isyarat bukan lisan seperti ketawa, batuk, mengeluh, dan banyak lagi dari skrip.
Mengklon suara dan mengawal emosi/nada dengan penyaman pada sampel audio.
Hantar pemberat dan kod terbuka di bawah Apache 2.0, jadi anda tidak dikunci ke dalam vendor atau kotak hitam.

Dan inilah penyepaknya: ia dibina oleh dua pelajar Korea Selatan, bukan makmal Silicon Valley yang dibiayai mega. Mereka memanfaatkan Awan Penyelidikan TPU Google untuk pengiraan, menunjukkan bahawa dengan alatan yang betul, pembina indie boleh menumbuk melebihi berat mereka.

Ciri Utama dan Manfaat Unik

Parameter 1.6B: Otot yang cukup untuk menangkap kehalusan pertuturan, emosi dan masa manusia.
Reka Bentuk Dialog Pertama: Dibina untuk mengendalikan perbualan berulang-alik, bukan hanya baris terpencil.
Tag Penceramah: Penggunaan [S1], [S2], dsb. untuk mencipta skrip berbilang pembesar suara semula jadi.
Penjanaan Bunyi Bukan Lisan: Sisipkan isyarat seperti (laughs), (coughs), (sighs), dan Dia akan menjananya dalam audio.
Pengklonan Suara: Suapkan sampel audio dan transkrip untuk mengkondisikan output pada suara atau emosi tertentu.
Sumber terbuka: Percuma untuk digunakan, diubah suai dan digunakan untuk penyelidikan dan projek komersial.
Inferens Masa Nyata: Pada GPU perusahaan, anda mendapat hampir penjanaan masa nyata-kira-kira 40 token/saat pada NVIDIA A4000.

Bagaimanakah Dia-1.6B Berbanding dengan Pertandingan?

Dia-1.6B sudah pun mengatasi gergasi komersial seperti ElevenLabs Studio dan Sesame CSM-1B dalam ekspresif, pemasaan dan pengendalian isyarat bukan lisan. Dalam tunjuk cara bersebelahan, pengguna telah memuji keupayaannya untuk menangkap aliran dialog semula jadi dan nada emosi, yang sering tiada dalam sistem TTS lama.

Apa tangkapan? Model ini pada masa ini adalah bahasa Inggeris sahaja, dan ia tidak ditala halus pada suara tertentu, jadi anda akan mendapat suara yang berbeza setiap kali melainkan anda menggunakan penyaman audio. Tetapi untuk projek sumber terbuka, hasilnya adalah menakjubkan.

Bermula: Menjalankan Dia-1.6B Secara Tempatan

Bersedia untuk mencuba Dia-1.6B untuk diri sendiri? Berikut ialah panduan langkah demi langkah anda, sama ada anda mahu menjalankannya secara setempat atau dalam awan.

Keperluan perkakasan

⬩ VRAM: Memerlukan kira-kira 10GB (GPU T4 pada Google Colab adalah sempurna)
⬩ OS: Linux, macOS atau Windows
⬩ Ular sawa: 3.8 +

Klon Repo dan Sediakan Persekitaran Anda

menampar

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Atau, jika anda menggunakan Google Colab:

ular sawa

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

Tukar kepada GPU T4 dalam Colab untuk hasil terbaik.

Muat turun Berat Model

Berat model dihoskan pada Muka Memeluk. Anda memerlukan token akses Memeluk Wajah (buat satu di Muka berpeluk).

ular sawa

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

Hasilkan Ucapan daripada Teks

Berikut ialah contoh skrip yang menunjukkan dialog dan ciri bukan lisan:

ular sawa

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Anda boleh memainkan audio menggunakan mana-mana pemain standard atau dalam Jupyter/Colab:

ular sawa

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

Pengklonan dan Pengkondisian Suara

Dia menyokong pengklonan suara dengan mengkondisikan sampel audio. Muat naik audio dan transkrip rujukan anda dalam Ruang Wajah Memeluk, atau gunakan skrip contoh dalam example/voice_clone.py daripada repo.

Pilihan Tanpa Kod: Cuba Dia-1.6B Dalam Talian

Tidak mahu mengacaukan kod? Pergi ke Ruang Muka Memeluk rasmi:

Demo Dia-1.6B (Muka Berpeluk)

Cuma tampal skrip anda, tambah gesaan audio jika anda ingin mengklonkan suara, dan tekan jana. Semudah itu.

Contoh Projek: Membina Bot Perbualan dengan Dia-1.6B

Berikut ialah contoh Python pantas untuk membina bot dialog mudah:

ular sawa

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Keluaran Output:

Amalan Terbaik & Petua Pro

Pengklonan Suara: Untuk suara yang konsisten, gunakan ciri gesaan audio atau tetapkan benih rawak.

Gunakan Tag Pembesar Suara: Sentiasa tandakan pembesar suara sebagai [S1], [S2], dsb. untuk dialog berbilang suara.

Manfaatkan Isyarat Bukan Lisan: Sisipkan isyarat seperti (laughs) or (sighs) untuk keluaran yang lebih realistik.

Pengklonan Suara: Untuk suara yang konsisten, gunakan ciri gesaan audio atau tetapkan benih rawak.

Perkakasan: Untuk kelajuan terbaik, gunakan GPU dengan sekurang-kurangnya 10GB VRAM. Sokongan CPU akan datang tidak lama lagi.

Etika: Jangan gunakan Dia untuk penyalahgunaan identiti, deepfakes, atau kandungan yang mengelirukan. Ia berkuasa - gunakannya secara bertanggungjawab.

Komuniti & Sokongan

Penyelesaian Masalah & Soalan Lazim

Mengapa suara saya berbeza dengan setiap generasi?

Dia-1.6B tidak diperhalusi pada suara tertentu secara lalai. Untuk output yang konsisten, gunakan ciri penyaman audio dengan sampel rujukan atau cuba tetapkan benih rawak tetap.

Bolehkah saya menggunakan Dia-1.6B untuk projek komersial?

Ya! Dia-1.6B dikeluarkan di bawah lesen Apache 2.0, membenarkan penggunaan percuma untuk tujuan peribadi dan komersial tanpa sekatan.

Adakah Dia-1.6B menyokong bahasa selain bahasa Inggeris?

Pada masa ini, Dia-1.6B hanya menyokong penjanaan teks ke pertuturan bahasa Inggeris. Sokongan berbilang bahasa boleh ditambah dalam versi akan datang mengikut peta jalan.

Bagaimanakah cara membuat dialog dengan berbilang pembesar suara?

Gunakan teg mudah seperti [S1] dan [S2] dalam skrip anda untuk menetapkan pembesar suara yang berbeza. Untuk pembesar suara tambahan, teruskan dengan [S3], [S4], dsb. mengekalkan suara watak yang konsisten.

Bagaimanakah cara saya mengklonkan suara tertentu dengan Dia-1.6B?

Muat naik sampel audio berkualiti tinggi selama 10-20 saat ke bahagian "Gesaan Audio" bersama-sama dengan transkrip tepatnya. Model akan menganalisis dan memadankan ciri suara dalam output yang dihasilkan.

Kesimpulannya: Mengapa Dia-1.6B Penting

Dia-1.6B mewakili masa yang tepat AI sintesis pertuturan melepasi ambang daripada "teknologi mengagumkan" kepada "pengganggu industri." Walaupun gergasi teknologi membelanjakan berjuta-juta untuk menyempurnakan taman berdinding mereka, model binaan pelajar ini secara senyap-senyap menulis semula peraturan. Apakah yang berlaku apabila kualiti suara peringkat premium menjadi percuma? Apabila nuansa emosi tidak lagi memerlukan yuran langganan?

Bersedia untuk memberikan projek anda suara sebenar?
Muat turun Dia-1.6B, hidupkan skrip anda dan biarkan kandungan anda bercakap untuk dirinya sendiri. Jika anda terkena sebarang masalah, yang Nari Labs komuniti penuh dengan sokongan dan idea. Jom buat AI model sumber terbuka manusia-satu pada satu masa.