
Dia-1.6B გამოირჩევა შესანიშნავი ფუნქციით ღია კოდის ტექსტიდან მეტყველებაზე გადასვლის მოდელი ეს's აუდიო სინთეზის მოლოდინების რეფორმირება მთელს მსოფლიოში AI საზოგადოებას.
შექმნილია ორი ბაკალავრიატის სტუდენტის მიერ ნარი ლაბსი გარე დაფინანსების გარეშე, ეს 1.6 მილიარდი პარამეტრის მოდელი წარმოქმნის აუდიოს ხარისხს, რომელიც შედარებადია პრემიუმ სერვისებთან, როგორიცაა ElevenLabs და Sesame CSM-1B.
ეს სახელმძღვანელო განიხილავს Dia-1.6B-ს's შესაძლებლობები, განხორციელების მოთხოვნები და პრაქტიკული გამოყენება დეველოპერებისთვის, შინაარსის შემქმნელებიდა AI პრაქტიკოსები, რომლებიც ეძებენ წარმოებისთვის მზა მეტყველების ტექნოლოგიას.
რა არის Dia-1.6B? რატომ საუბრობენ ყველა მასზე?
Dia-1.6B არის თანამედროვე, ღია კოდის TTS მოდელი, რომელიც შექმნილია ულტრარეალისტური, ექსპრესიული დიალოგის გენერირებისთვის უბრალო ტექსტიდან. TTS მოდელების უმეტესობისგან განსხვავებით, რომლებიც უბრალოდ რობოტულ წინადადებებს ქმნიან, Dia-1.6B-ს შეუძლია:

- მრავალი დინამიკის მართვა მარტივი ტეგების გამოყენებით, როგორიცაა
[S1],[S2]და ა.შ. - არავერბალური მინიშნებების გენერირება როგორიცაა სიცილი, ხველა, კვნესა და სხვა, პირდაპირ სცენარიდან.
- ხმების კლონირება და ემოციების/ტონის კონტროლი პირობით აუდიო ნიმუშები.
- ღია წონებისა და კოდის მიწოდება Apache 2.0-ის ქვეშ, ამიტომ თქვენ არ ხართ ჩაკეტილი მომწოდებელში ან შავ ყუთში.
და აი, ყველაზე მნიშვნელოვანი რამ: ის ორმა კორეელმა სტუდენტმა ააგო და არა მეგა-დაფინანსებულმა სილიკონის ველის ლაბორატორიამ. მათ გამოთვლებისთვის Google-ის TPU Research Cloud გამოიყენეს, რამაც აჩვენა, რომ სწორი ხელსაწყოებით დამოუკიდებელი მშენებლები საკუთარ შესაძლებლობებს აჭარბებენ.
ძირითადი მახასიათებლები და უნიკალური შეღავათები
- 1.6B პარამეტრები: საკმარისი კუნთოვანი მასა აქვს ადამიანის მეტყველების, ემოციებისა და დროის დახვეწილობების აღსაქმელად.
- დიალოგის პირველი დიზაინი: შექმნილია არა მხოლოდ იზოლირებული ხაზების, არამედ ურთიერთსაწინააღმდეგო საუბრების სამართავად.
- სპიკერის ტეგები: გამოყენება
[S1],[S2]და ა.შ. ბუნებრივი მრავალსპიკერიანი სკრიპტების შესაქმნელად. - არავერბალური ბგერების გენერაცია: ჩასვით მინიშნებები, როგორიცაა
(laughs),(coughs),(sighs)და Dia მათ აუდიოში გენერირებას მოახდენს. - ხმის კლონირება: აუდიო ნიმუშისა და ტრანსკრიპტის მიწოდება, რათა გამომავალი ხმა კონკრეტულ ხმაზე ან ემოციაზე იყოს დამოკიდებული.
- Საჯარო წყარო: უფასოა კვლევისთვის გამოსაყენებლად, შესაცვლელად და განსათავსებლად კომერციული პროექტები.
- რეალურ დროში დასკვნა: კორპორატიული გრაფიკული პროცესორების შემთხვევაში, NVIDIA A40-ზე გენერირება თითქმის რეალურ დროში ხდება - დაახლოებით 4000 ტოკენი წამში.
როგორ შეედრება Dia-1.6B კონკურენტებს?
Dia-1.6B უკვე აჯობებს კომერციულ გიგანტებს, როგორიცაა Eleven Labs Studio-სა და Sesame CSM-1B-ს შორის ექსპრესიულობა, დროის ინტერპრეტაცია და არავერბალური სიგნალების დამუშავება. დემო ვერსიებში მომხმარებლებმა აქეს მისი უნარი, აღბეჭდოს ბუნებრივი დიალოგის ნაკადი და ემოციური ტონი, რაც ხშირად აკლია ძველ TTS სისტემებს.
რა არის დაჭერა? მოდელი ამჟამად მხოლოდ ინგლისურ ენაზეა და ის კონკრეტულ ხმებზე არ არის დაკონფიგურირებული, ამიტომ ყოველ ჯერზე განსხვავებულ ხმას მიიღებთ, თუ აუდიოს კონდიცირებას არ გამოიყენებთ. თუმცა, ღია კოდის პროექტის შემთხვევაში, შედეგები უბრალოდ განსაცვიფრებელია.
დაწყება: Dia-1.6B-ის ლოკალურად გაშვება
მზად ხართ, თავად გამოსცადოთ Dia-1.6B? აქ მოცემულია ეტაპობრივი ინსტრუქცია, გსურთ მისი ლოკალურად გაშვება თუ ღრუბელში.
| ტექნიკური მოთხოვნები | ⬩ VRAM: დაახლოებით 10 გბ სჭირდება (Google Colab-ზე T4 გრაფიკული პროცესორი იდეალურია) ⬩ ოპერაციული სისტემა: Linux, macOS ან Windows ⬩ პითონი: 3.8 + |
რეპოს კლონირება და გარემოს დაყენება
Bash
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
ან, თუ იყენებთ Google Colab-ს:
პითონი
!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile
საუკეთესო შედეგის მისაღებად Colab-ში გადადით T4 GPU-ზე.
მოდელის წონების ჩამოტვირთვა
მოდელის წონა განთავსებულია Hugging Face-ზე. დაგჭირდებათ Hugging Face-ზე წვდომის ტოკენი (შექმენით ის შემდეგ ბმულზე) ჩახუტებული სახე).
პითონი
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
ტექსტიდან მეტყველების გენერირება
აქ მოცემულია სცენარის ნიმუში, რომელიც აჩვენებს დიალოგს და არავერბალურ მახასიათებლებს:
პითონი
text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100) # Save the audio
აუდიოს დაკვრა შეგიძლიათ ნებისმიერი სტანდარტული პლეერის გამოყენებით ან Jupyter/Colab-ის მეშვეობით:
პითონი
import IPython.display as ipd
ipd.Audio("dia_sample.mp3")
ხმის კლონირება და კონდიცირება
დია მხარს უჭერს ხმის კლონირება აუდიო ნიმუშის კონდიცირებით. ატვირთეთ თქვენი საცნობარო აუდიო და ტრანსკრიპტი Hugging Face Space-ში ან გამოიყენეთ მაგალითის სკრიპტი example/voice_clone.py რეპეტიციიდან.
კოდის გარეშე ვარიანტი: სცადეთ Dia-1.6B ონლაინ
არ გსურთ კოდში არეულობა? გადადით ოფიციალურ Hugging Face Space-ზე:

უბრალოდ ჩასვით თქვენი სკრიპტი, დაამატეთ აუდიო მოთხოვნა, თუ გსურთ ხმის კლონირება და დააჭირეთ ღილაკს „გენერირება“. ეს ასე მარტივია.
პროექტის ნიმუში: Dia-1.6B-ით სასაუბრო ბოტის შექმნა
აქ მოცემულია Python-ის სწრაფი მაგალითი მარტივი დიალოგური ბოტის შესაქმნელად:
პითონი
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""
audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)
ნიმუშის გამომავალი:
საუკეთესო პრაქტიკები და პროფესიონალური რჩევები
საზოგადოება და მხარდაჭერა
პრობლემების მოგვარება და ხშირად დასმული კითხვები
რატომ ჟღერს ჩემი ხმა სხვადასხვა თაობაში?
Dia-1.6B ნაგულისხმევად არ არის დარეგულირებული კონკრეტულ ხმებზე. თანმიმდევრული გამომავალი სიგნალისთვის გამოიყენეთ აუდიოს კონდიცირების ფუნქცია საცნობარო ნიმუშით ან სცადეთ ფიქსირებული შემთხვევითი საწყისი წერტილის დაყენება.
შემიძლია Dia-1.6B-ის გამოყენება კომერციული პროექტებისთვის?
დიახ! Dia-1.6B გამოშვებულია Apache 2.0 ლიცენზიით, რაც საშუალებას იძლევა გამოიყენოთ როგორც პირადი, ასევე კომერციული მიზნებისთვის შეზღუდვების გარეშე.
Dia-1.6B მხარს უჭერს ინგლისურის გარდა სხვა ენებსაც?
ამჟამად, Dia-1.6B მხოლოდ ინგლისურენოვანი ტექსტის მეტყველების გენერირებას უჭერს მხარს. მრავალენოვანი მხარდაჭერა შესაძლოა დაემატოს მომავალ ვერსიებს გეგმის მიხედვით.
როგორ შევქმნა დიალოგი რამდენიმე მოსაუბრესთან?
სხვადასხვა მოლაპარაკის აღსანიშნავად თქვენს სკრიპტში გამოიყენეთ მარტივი თეგები, როგორიცაა [S1] და [S2]. დამატებითი მოლაპარაკეებისთვის გააგრძელეთ [S3], [S4] და ა.შ., პერსონაჟების ხმების თანმიმდევრული შენარჩუნებით.
როგორ დავაკოპირო კონკრეტული ხმა Dia-1.6B-ით?
„აუდიო შეტყობინების“ განყოფილებაში ატვირთეთ 10-20 წამიანი მაღალი ხარისხის აუდიო ნიმუში მის ზუსტ ტრანსკრიპტთან ერთად. მოდელი გააანალიზებს და შეადარებს ხმის მახასიათებლებს გენერირებულ გამომავალში.
დასკვნა: რატომ არის Dia-1.6B მნიშვნელოვანი
Dia-1.6B წარმოადგენს ზუსტ მომენტს AI მეტყველების სინთეზი გადალახა ზღვარი „შთამბეჭდავი ტექნოლოგიიდან“ „ინდუსტრიის რევოლუციონერად“. მაშინ, როდესაც ტექნოლოგიურმა გიგანტებმა მილიონები დახარჯეს თავიანთი კედლებიანი ბაღების დახვეწაზე, სტუდენტების მიერ შექმნილმა ამ მოდელმა ჩუმად შეცვალა წესები. რა მოხდება, როდესაც პრემიუმ კლასის ხმის ხარისხი უფასო გახდება? როდესაც ემოციური ნიუანსი აღარ ღირს სააბონენტო გადასახადის დასაფარად?
მზად ხართ, თქვენს პროექტებს რეალური ხმა მისცეთ?
ჩამოტვირთეთ Dia-1.6B, ჩართეთ თქვენი სკრიპტები და მიეცით თქვენს კონტენტს საშუალება, თავად ისაუბროს საკუთარ თავზე. თუ რაიმე პრობლემას წააწყდებით, ნარი ლაბსი საზოგადოება მხარდაჭერითა და იდეებით არის სავსე. მოდით, შევქმნათ AI ხმის ადამიანური - ერთი ღია კოდის მოდელი ერთდროულად.

