Dia-1.6B: თავისუფალი ხმა AI ეს 30 დოლარიან პრემიუმ სერვისებს აჭარბებს თვეში

Dia-1.6B ღია კოდის TTS მოდელი

Dia-1.6B გამოირჩევა შესანიშნავი ფუნქციით ღია კოდის ტექსტიდან მეტყველებაზე გადასვლის მოდელი ეს's აუდიო სინთეზის მოლოდინების რეფორმირება მთელს მსოფლიოში AI საზოგადოებას.

შექმნილია ორი ბაკალავრიატის სტუდენტის მიერ ნარი ლაბსი გარე დაფინანსების გარეშე, ეს 1.6 მილიარდი პარამეტრის მოდელი წარმოქმნის აუდიოს ხარისხს, რომელიც შედარებადია პრემიუმ სერვისებთან, როგორიცაა ElevenLabs და Sesame CSM-1B.

ეს სახელმძღვანელო განიხილავს Dia-1.6B-ს's შესაძლებლობები, განხორციელების მოთხოვნები და პრაქტიკული გამოყენება დეველოპერებისთვის, შინაარსის შემქმნელებიდა AI პრაქტიკოსები, რომლებიც ეძებენ წარმოებისთვის მზა მეტყველების ტექნოლოგიას.

რა არის Dia-1.6B? რატომ საუბრობენ ყველა მასზე?

Dia-1.6B არის თანამედროვე, ღია კოდის TTS მოდელი, რომელიც შექმნილია ულტრარეალისტური, ექსპრესიული დიალოგის გენერირებისთვის უბრალო ტექსტიდან. TTS მოდელების უმეტესობისგან განსხვავებით, რომლებიც უბრალოდ რობოტულ წინადადებებს ქმნიან, Dia-1.6B-ს შეუძლია:

ნარი დია-1.6B- AI TTS მოდელი
  • მრავალი დინამიკის მართვა მარტივი ტეგების გამოყენებით, როგორიცაა [S1], [S2]და ა.შ.
  • არავერბალური მინიშნებების გენერირება როგორიცაა სიცილი, ხველა, კვნესა და სხვა, პირდაპირ სცენარიდან.
  • ხმების კლონირება და ემოციების/ტონის კონტროლი პირობით აუდიო ნიმუშები.
  • ღია წონებისა და კოდის მიწოდება Apache 2.0-ის ქვეშ, ამიტომ თქვენ არ ხართ ჩაკეტილი მომწოდებელში ან შავ ყუთში.

და აი, ყველაზე მნიშვნელოვანი რამ: ის ორმა კორეელმა სტუდენტმა ააგო და არა მეგა-დაფინანსებულმა სილიკონის ველის ლაბორატორიამ. მათ გამოთვლებისთვის Google-ის TPU Research Cloud გამოიყენეს, რამაც აჩვენა, რომ სწორი ხელსაწყოებით დამოუკიდებელი მშენებლები საკუთარ შესაძლებლობებს აჭარბებენ.

ძირითადი მახასიათებლები და უნიკალური შეღავათები

  • 1.6B პარამეტრები: საკმარისი კუნთოვანი მასა აქვს ადამიანის მეტყველების, ემოციებისა და დროის დახვეწილობების აღსაქმელად.
  • დიალოგის პირველი დიზაინი: შექმნილია არა მხოლოდ იზოლირებული ხაზების, არამედ ურთიერთსაწინააღმდეგო საუბრების სამართავად.
  • სპიკერის ტეგები: გამოყენება [S1], [S2]და ა.შ. ბუნებრივი მრავალსპიკერიანი სკრიპტების შესაქმნელად.
  • არავერბალური ბგერების გენერაცია: ჩასვით მინიშნებები, როგორიცაა (laughs), (coughs), (sighs)და Dia მათ აუდიოში გენერირებას მოახდენს.
  • ხმის კლონირება: აუდიო ნიმუშისა და ტრანსკრიპტის მიწოდება, რათა გამომავალი ხმა კონკრეტულ ხმაზე ან ემოციაზე იყოს დამოკიდებული.
  • Საჯარო წყარო: უფასოა კვლევისთვის გამოსაყენებლად, შესაცვლელად და განსათავსებლად კომერციული პროექტები.
  • რეალურ დროში დასკვნა: კორპორატიული გრაფიკული პროცესორების შემთხვევაში, NVIDIA A40-ზე გენერირება თითქმის რეალურ დროში ხდება - დაახლოებით 4000 ტოკენი წამში.

როგორ შეედრება Dia-1.6B კონკურენტებს?

Dia-1.6B უკვე აჯობებს კომერციულ გიგანტებს, როგორიცაა Eleven Labs Studio-სა და Sesame CSM-1B-ს შორის ექსპრესიულობა, დროის ინტერპრეტაცია და არავერბალური სიგნალების დამუშავება. დემო ვერსიებში მომხმარებლებმა აქეს მისი უნარი, აღბეჭდოს ბუნებრივი დიალოგის ნაკადი და ემოციური ტონი, რაც ხშირად აკლია ძველ TTS სისტემებს.

რა არის დაჭერა? მოდელი ამჟამად მხოლოდ ინგლისურ ენაზეა და ის კონკრეტულ ხმებზე არ არის დაკონფიგურირებული, ამიტომ ყოველ ჯერზე განსხვავებულ ხმას მიიღებთ, თუ აუდიოს კონდიცირებას არ გამოიყენებთ. თუმცა, ღია კოდის პროექტის შემთხვევაში, შედეგები უბრალოდ განსაცვიფრებელია.

დაწყება: Dia-1.6B-ის ლოკალურად გაშვება

მზად ხართ, თავად გამოსცადოთ Dia-1.6B? აქ მოცემულია ეტაპობრივი ინსტრუქცია, გსურთ მისი ლოკალურად გაშვება თუ ღრუბელში.

ტექნიკური მოთხოვნებიVRAM: დაახლოებით 10 გბ სჭირდება (Google Colab-ზე T4 გრაფიკული პროცესორი იდეალურია)
ოპერაციული სისტემა: Linux, macOS ან Windows
პითონი: 3.8 +
1

რეპოს კლონირება და გარემოს დაყენება

Bash

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

ან, თუ იყენებთ Google Colab-ს:

პითონი

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

საუკეთესო შედეგის მისაღებად Colab-ში გადადით T4 GPU-ზე.

2

მოდელის წონების ჩამოტვირთვა

მოდელის წონა განთავსებულია Hugging Face-ზე. დაგჭირდებათ Hugging Face-ზე წვდომის ტოკენი (შექმენით ის შემდეგ ბმულზე) ჩახუტებული სახე).

პითონი

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")
3

ტექსტიდან მეტყველების გენერირება

აქ მოცემულია სცენარის ნიმუში, რომელიც აჩვენებს დიალოგს და არავერბალურ მახასიათებლებს:

პითონი

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

აუდიოს დაკვრა შეგიძლიათ ნებისმიერი სტანდარტული პლეერის გამოყენებით ან Jupyter/Colab-ის მეშვეობით:

პითონი

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")
4

ხმის კლონირება და კონდიცირება

დია მხარს უჭერს ხმის კლონირება აუდიო ნიმუშის კონდიცირებით. ატვირთეთ თქვენი საცნობარო აუდიო და ტრანსკრიპტი Hugging Face Space-ში ან გამოიყენეთ მაგალითის სკრიპტი example/voice_clone.py რეპეტიციიდან.

კოდის გარეშე ვარიანტი: სცადეთ Dia-1.6B ონლაინ

არ გსურთ კოდში არეულობა? გადადით ოფიციალურ Hugging Face Space-ზე:

Dia-1.6B ჩახუტებულ სახეზე

უბრალოდ ჩასვით თქვენი სკრიპტი, დაამატეთ აუდიო მოთხოვნა, თუ გსურთ ხმის კლონირება და დააჭირეთ ღილაკს „გენერირება“. ეს ასე მარტივია.

პროექტის ნიმუში: Dia-1.6B-ით სასაუბრო ბოტის შექმნა

აქ მოცემულია Python-ის სწრაფი მაგალითი მარტივი დიალოგური ბოტის შესაქმნელად:

პითონი

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

საუკეთესო პრაქტიკები და პროფესიონალური რჩევები

ხმის კლონირება: თანმიმდევრული ხმებისთვის გამოიყენეთ აუდიო მოთხოვნის ფუნქცია ან დააყენეთ შემთხვევითი სერია.
გამოიყენეთ დინამიკის ტეგები: ყოველთვის მონიშნეთ დინამიკები, როგორც [S1], [S2]და ა.შ. მრავალხმიანი დიალოგისთვის.
გამოიყენეთ არავერბალური მინიშნებები: ჩასვით მინიშნებები, როგორიცაა (laughs) or (sighs) უფრო რეალისტური გამომავალისთვის.
ხმის კლონირება: თანმიმდევრული ხმებისთვის გამოიყენეთ აუდიო მოთხოვნის ფუნქცია ან დააყენეთ შემთხვევითი სერია.
ტექნიკა: საუკეთესო სიჩქარისთვის გამოიყენეთ გრაფიკული პროცესორი მინიმუმ 10 გბ VRAM-ით. CPU-ს მხარდაჭერა მალე იქნება ხელმისაწვდომი.
Ეთიკის: ნუ გამოიყენებთ Dia-ს პირადობის ბოროტად გამოყენებისთვის, deepfakesან მატყუარა შინაარსი. ის ძლიერია - გამოიყენეთ იგი პასუხისმგებლობით.

საზოგადოება და მხარდაჭერა

პრობლემების მოგვარება და ხშირად დასმული კითხვები

რატომ ჟღერს ჩემი ხმა სხვადასხვა თაობაში?

Dia-1.6B ნაგულისხმევად არ არის დარეგულირებული კონკრეტულ ხმებზე. თანმიმდევრული გამომავალი სიგნალისთვის გამოიყენეთ აუდიოს კონდიცირების ფუნქცია საცნობარო ნიმუშით ან სცადეთ ფიქსირებული შემთხვევითი საწყისი წერტილის დაყენება.

შემიძლია Dia-1.6B-ის გამოყენება კომერციული პროექტებისთვის?

დიახ! Dia-1.6B გამოშვებულია Apache 2.0 ლიცენზიით, რაც საშუალებას იძლევა გამოიყენოთ როგორც პირადი, ასევე კომერციული მიზნებისთვის შეზღუდვების გარეშე.

Dia-1.6B მხარს უჭერს ინგლისურის გარდა სხვა ენებსაც?

ამჟამად, Dia-1.6B მხოლოდ ინგლისურენოვანი ტექსტის მეტყველების გენერირებას უჭერს მხარს. მრავალენოვანი მხარდაჭერა შესაძლოა დაემატოს მომავალ ვერსიებს გეგმის მიხედვით.

როგორ შევქმნა დიალოგი რამდენიმე მოსაუბრესთან?

სხვადასხვა მოლაპარაკის აღსანიშნავად თქვენს სკრიპტში გამოიყენეთ მარტივი თეგები, როგორიცაა [S1] და [S2]. დამატებითი მოლაპარაკეებისთვის გააგრძელეთ [S3], [S4] და ა.შ., პერსონაჟების ხმების თანმიმდევრული შენარჩუნებით.

როგორ დავაკოპირო კონკრეტული ხმა Dia-1.6B-ით?

„აუდიო შეტყობინების“ განყოფილებაში ატვირთეთ 10-20 წამიანი მაღალი ხარისხის აუდიო ნიმუში მის ზუსტ ტრანსკრიპტთან ერთად. მოდელი გააანალიზებს და შეადარებს ხმის მახასიათებლებს გენერირებულ გამომავალში.

დასკვნა: რატომ არის Dia-1.6B მნიშვნელოვანი

Dia-1.6B წარმოადგენს ზუსტ მომენტს AI მეტყველების სინთეზი გადალახა ზღვარი „შთამბეჭდავი ტექნოლოგიიდან“ „ინდუსტრიის რევოლუციონერად“. მაშინ, როდესაც ტექნოლოგიურმა გიგანტებმა მილიონები დახარჯეს თავიანთი კედლებიანი ბაღების დახვეწაზე, სტუდენტების მიერ შექმნილმა ამ მოდელმა ჩუმად შეცვალა წესები. რა მოხდება, როდესაც პრემიუმ კლასის ხმის ხარისხი უფასო გახდება? როდესაც ემოციური ნიუანსი აღარ ღირს სააბონენტო გადასახადის დასაფარად?

მზად ხართ, თქვენს პროექტებს რეალური ხმა მისცეთ?
ჩამოტვირთეთ Dia-1.6B, ჩართეთ თქვენი სკრიპტები და მიეცით თქვენს კონტენტს საშუალება, თავად ისაუბროს საკუთარ თავზე. თუ რაიმე პრობლემას წააწყდებით, ნარი ლაბსი საზოგადოება მხარდაჭერითა და იდეებით არის სავსე. მოდით, შევქმნათ AI ხმის ადამიანური - ერთი ღია კოდის მოდელი ერთდროულად.

დატოვე პასუხი

თქვენი ელფოსტის მისამართი გამოქვეყნებული არ იყო. აუცილებელი ველები მონიშნულია *

ეს საიტი იყენებს Akismet- ს, რათა შეამციროს სპამი. შეიტყვეთ, როგორ მუშავდება თქვენი კომენტარების მონაცემები.

გაწევრიანდით Aimojo ტომი!

შემოუერთდით 76,200+ წევრს ინსაიდერული რჩევებისთვის ყოველ კვირას! 
🎁 BONUS: მიიღეთ ჩვენი 200 დოლარიAI „ოსტატობის ინსტრუმენტების ნაკრები“ უფასოა რეგისტრაციის შემდეგ!

Trending AI ინსტრუმენტები
სკრიპტი

გადააქციეთ თქვენი LinkedIn პროფილი B2B შემოსავლის ძრავად ის AI LinkedIn-ის პერსონალური ბრენდინგისა და კონტენტის ავტომატიზაციის სამუშაო სივრცე

MindPal

აიმაღლეთ თქვენი ექსპერტის დონე AI სამუშაო ძალა კოდის ერთი ხაზის დაწერის გარეშე კოდის გარეშე პლატფორმა AI აგენტის შექმნა და ბრენდირებული კლიენტების მიწოდება

მეში

ტექსტიდან ან სურათებიდან ერთ წუთზე ნაკლებ დროში შექმენით წარმოების მზა 3D აქტივები ის AI 3D მოდელების გენერატორი, რომელსაც ენდობიან სათამაშო სტუდიები, მხატვრები და შემქმნელები მთელი მსოფლიოს მასშტაბით

AudioNotes.app

ორგანიზებულად აქციეთ ხმა, ტექსტი და ვიდეო AI შენიშვნები წუთებში. ის AI ჩანაწერების ამღები, შექმნილი სიჩქარისა და სიმარტივისთვის.

სასწავლო სტუდია AI

შექმენით პროფესიონალური ელექტრონული სწავლების კურსები წუთებში AI ავტორიზებულ წერას. ყველაფერი ერთში AI კურსის შემქმნელი SCORM ექსპორტით, ვიქტორინებით და ტექსტიდან მეტყველებად გარდაქმნით.

© საავტორო უფლებები 2023 - 2026 | გახდი AI პროფესიონალი | დამზადებულია ♥-ით