Dia-1.6B: Suara Bebas AI Yang Mengalahkan Layanan Premium $30/Bulan

by Ali

1 tahun lalu 0 772

Dia-1.6B merupakan sebuah penemuan yang luar biasa model teks ke ucapan sumber terbuka bahwa's membentuk kembali ekspektasi sintesis audio di seluruh AI masyarakat.

Dibuat oleh dua mahasiswa sarjana di Laboratorium Nari tanpa pendanaan eksternal, model parameter 1.6 miliar ini menghasilkan kualitas audio yang sebanding dengan layanan premium seperti ElevenLabs dan Sesame CSM-1B.

Panduan ini membahas Dia-1.6B's kemampuan, persyaratan implementasi, dan aplikasi praktis untuk pengembang, pencipta konten, dan AI praktisi yang mencari teknologi ucapan yang siap produksi.

Apa itu Dia-1.6B? Mengapa Banyak yang Membicarakannya?

Dia-1.6B adalah model TTS sumber terbuka mutakhir yang dirancang untuk menghasilkan dialog yang sangat realistis dan ekspresif dari teks biasa. Tidak seperti kebanyakan model TTS yang hanya mengeluarkan kalimat robotik, Dia-1.6B dapat:

Menangani beberapa pembicara menggunakan tag sederhana seperti [S1], [S2], Dll
Hasilkan isyarat non-verbal seperti tawa, batuk, desahan, dan masih banyak lagi yang langsung dari naskah.
Klon suara dan kendalikan emosi/nada dengan pengkondisian pada sampel audio.
Kirimkan bobot dan kode terbuka di Apache 2.0, jadi Anda tidak terkunci pada vendor atau kotak hitam.

Dan inilah yang menarik: perangkat ini dibangun oleh dua mahasiswa Korea, bukan laboratorium Silicon Valley yang didanai besar-besaran. Mereka memanfaatkan TPU Research Cloud milik Google untuk komputasi, yang menunjukkan bahwa dengan perangkat yang tepat, pengembang indie dapat melampaui kemampuan mereka.

Fitur Utama dan Keuntungan Unik

1.6B Parameternya: Cukup kuat untuk menangkap kehalusan ucapan, emosi, dan waktu manusia.
Desain Dialog-Pertama: Dibuat untuk menangani percakapan bolak-balik, bukan hanya percakapan terisolasi.
Tag Pembicara: penggunaan [S1], [S2], dll. untuk membuat skrip multi-pembicara alami.
Pembangkitan Suara Non-Verbal: Masukkan isyarat seperti (laughs), (coughs), (sighs), dan Dia akan membuatnya dalam audio.
Kloning Suara: Masukkan sampel audio dan transkrip untuk mengondisikan keluaran pada suara atau emosi tertentu.
Sumber Terbuka: Bebas untuk digunakan, dimodifikasi, dan disebarkan untuk penelitian dan proyek komersial.
Inferensi Waktu Nyata: Pada GPU perusahaan, Anda mendapatkan pembangkitan hampir secara real-time—sekitar 40 token/detik pada NVIDIA A4000.

Bagaimana Dia-1.6B Dibandingkan dengan Kompetitor?

Dia-1.6B sudah mengungguli raksasa komersial seperti ElevenLab Studio dan Sesame CSM-1B dalam hal ekspresi, pengaturan waktu, dan penanganan isyarat non-verbal. Dalam demo berdampingan, pengguna memuji kemampuannya untuk menangkap alur dialog alami dan nada emosional, yang sering kali hilang dalam sistem TTS lama.

Apa yang menangkap? Model ini saat ini hanya tersedia dalam bahasa Inggris, dan tidak disesuaikan dengan suara tertentu, jadi Anda akan mendapatkan suara yang berbeda setiap kali kecuali jika Anda menggunakan pengondisian audio. Namun untuk proyek sumber terbuka, hasilnya sungguh menakjubkan.

Memulai: Menjalankan Dia-1.6B Secara Lokal

Siap mencoba Dia-1.6B sendiri? Berikut panduan langkah demi langkah, baik Anda ingin menjalankannya secara lokal maupun di cloud.

Требования к оборудованию

⬩ VRAM: Membutuhkan sekitar 10GB (GPU T4 di Google Colab sudah sempurna)
⬩ OS: Linux, macOS, atau Windows
⬩ ular piton: 3.8 +

Klon Repo dan Siapkan Lingkungan Anda

menampar

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Atau, jika Anda menggunakan Google Colab:

ular sanca

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

Beralihlah ke GPU T4 di Colab untuk hasil terbaik.

Unduh Berat Model

Bobot model dihosting di Hugging Face. Anda memerlukan token akses Hugging Face (buat satu di Wajah berpelukan).

ular sanca

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

Hasilkan Ucapan dari Teks

Berikut contoh naskah yang memperlihatkan dialog dan fitur non-verbal:

ular sanca

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Anda dapat memutar audio menggunakan pemutar standar apa pun atau dalam Jupyter/Colab:

ular sanca

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

Kloning dan Pengondisian Suara

Dia mendukung kloning suara dengan mengondisikan pada sampel audio. Unggah audio referensi dan transkrip Anda di Hugging Face Space, atau gunakan skrip contoh di example/voice_clone.py dari repo.

Opsi Tanpa Kode: Coba Dia-1.6B Online

Tidak ingin repot dengan kode? Kunjungi Hugging Face Space resmi:

Demo Dia-1.6B (Wajah Pelukan)

Cukup tempel skrip Anda, tambahkan perintah audio jika Anda ingin mengkloning suara, lalu tekan buat. Semudah itu.

Contoh Proyek: Membangun Bot Percakapan dengan Dia-1.6B

Berikut contoh Python cepat untuk membangun bot dialog sederhana:

ular sanca

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Output sampel:

Praktik Terbaik & Kiat Profesional

Kloning Suara: Untuk suara yang konsisten, gunakan fitur perintah audio atau tetapkan benih acak.

Gunakan Tag Pembicara: Selalu tandai speaker sebagai [S1], [S2], dll. untuk dialog multisuara.

Memanfaatkan Isyarat Non-Verbal: Masukkan isyarat seperti (laughs) or (sighs) untuk hasil yang lebih realistis.

Kloning Suara: Untuk suara yang konsisten, gunakan fitur perintah audio atau tetapkan benih acak.

Hardware: Untuk kecepatan terbaik, gunakan GPU dengan VRAM minimal 10 GB. Dukungan CPU akan segera hadir.

Etika: Jangan gunakan Dia untuk penyalahgunaan identitas, deepfakes, atau konten yang menipu. Ini sangat ampuh - gunakan secara bertanggung jawab.

Komunitas & Dukungan

Pemecahan Masalah & FAQ

Mengapa suaraku terdengar berbeda pada setiap generasi?

Dia-1.6B tidak disetel dengan baik pada suara tertentu secara default. Untuk keluaran yang konsisten, gunakan fitur pengondisian audio dengan sampel referensi atau coba tetapkan benih acak tetap.

Dapatkah saya menggunakan Dia-1.6B untuk proyek komersial?

Ya! Dia-1.6B dirilis di bawah lisensi Apache 2.0, yang memungkinkan penggunaan gratis untuk keperluan pribadi dan komersial tanpa batasan.

Apakah Dia-1.6B mendukung bahasa selain bahasa Inggris?

Saat ini, Dia-1.6B hanya mendukung pembuatan teks-ke-ucapan dalam bahasa Inggris. Dukungan multibahasa dapat ditambahkan di versi mendatang sesuai dengan peta jalan.

Bagaimana cara membuat dialog dengan banyak pembicara?

Gunakan tag sederhana seperti [S1] dan [S2] dalam skrip Anda untuk menunjuk pembicara yang berbeda. Untuk pembicara tambahan, lanjutkan dengan [S3], [S4], dst. dengan tetap mempertahankan suara karakter yang konsisten.

Bagaimana cara mengkloning suara tertentu dengan Dia-1.6B?

Unggah sampel audio berkualitas tinggi berdurasi 10-20 detik ke bagian “Audio Prompt” beserta transkrip persisnya. Model akan menganalisis dan mencocokkan karakteristik suara dalam output yang dihasilkan.

Intinya: Mengapa Dia-1.6B Penting

Dia-1.6B mewakili momen yang tepat AI sintesis ucapan melewati ambang batas dari "teknologi yang mengesankan" menjadi "pengganggu industri." Sementara raksasa teknologi menghabiskan jutaan dolar untuk menyempurnakan taman berpagar mereka, model yang dibuat oleh mahasiswa ini diam-diam menulis ulang aturan. Apa yang terjadi ketika kualitas suara premium menjadi gratis? Ketika nuansa emosional tidak lagi memerlukan biaya berlangganan?

Siap memberikan proyek Anda suara yang nyata?
Unduh Dia-1.6B, jalankan skrip Anda, dan biarkan konten Anda berbicara sendiri. Jika Anda mengalami kendala, Laboratorium Nari Komunitas ini dipenuhi dengan dukungan dan ide. Mari kita buat AI suara manusia-satu model sumber terbuka pada satu waktu.