Dia-1.6B: Volný hlas AI To překonává prémiové služby za 30 dolarů měsíčně

by Ali

11 měsíci 0 712

Dia-1.6B je pozoruhodný open-source model převodu textu na řeč že's přetváření očekávání ohledně audio syntézy napříč AI komunita.

Vytvořili dva studenti bakalářského studia na Laboratoře Nari Bez externího financování tento model s 1.6 miliardami parametrů produkuje zvukovou kvalitu srovnatelnou s prémiovými službami, jako jsou ElevenLabs a Sesame CSM-1B.

Tato příručka se zabývá Dia-1.6B's schopnosti, implementační požadavky a praktické aplikace pro vývojáře, tvůrcům obsahu, a AI odborníci hledající technologii pro tvorbu řeči připravenou k produkci.

Co je Dia-1.6B? Proč o tom všichni mluví?

Dia-1.6B je moderní model TTS s otevřeným zdrojovým kódem, který je navržen tak, aby generoval ultrarealistický a expresivní dialog z prostého textu. Na rozdíl od většiny modelů TTS, které pouze chrlí robotické věty, Dia-1.6B dokáže:

Zvládání více reproduktorů pomocí jednoduchých tagů, jako je [S1], [S2], Etc.
Generujte neverbální signály jako smích, kašel, vzdechy a další přímo ze scénáře.
Klonování hlasů a ovládání emocí/tónu podmiňováním audio ukázky.
Dodání otevřených vah a kódu pod Apache 2.0, takže nejste uvězněni u dodavatele nebo černé skříňky.

A tady je ten háček: postavili ho dva korejští studenti, ne nějaká laboratoř v Silicon Valley s velkým rozpočtem. Pro výpočetní techniku využili Google TPU Research Cloud a ukázali, že se správnými nástroji dokáží nezávislí vývojáři překonat očekávání.

Klíčové vlastnosti a jedinečné výhody

Parametry 1.6B: Dostatečně silný k zachycení jemných detailů lidské řeči, emocí a načasování.
Design zaměřený na dialog: Navrženo pro zvládání obousměrných konverzací, nejen jednotlivých linek.
Štítky řečníků: Použijte [S1], [S2]atd. k vytvoření přirozených scénářů s více mluvčími.
Neverbální generování zvuků: Vložte například (laughs), (coughs), (sighs)a Dia je vygeneruje ve zvuku.
Klonování hlasu: Vložte zvukový vzorek a přepis, abyste podmínili výstup pro konkrétní hlas nebo emoci.
Otevřený zdroj: Volné použití, úpravy a nasazení pro výzkum a komerční projekty.
Inference v reálném čase: Na podnikových GPU dosáhnete generování téměř v reálném čase – na NVIDIA A40 dosahuje rychlosti přibližně 4000 tokenů za sekundu.

Jak si Dia-1.6B vede v porovnání s konkurencí?

Dia-1.6B již nyní překonává komerční giganty jako ElevenLabs Studio a Sesame CSM-1B v oblasti expresivity, načasování a zpracování neverbálních signálů. V porovnání uživatelů si systém chválili jeho schopnost zachytit přirozený tok dialogu a emocionální tón, což u starších systémů pro převod řeči na řeč často chybí.

Jaký je úlovek? Model je momentálně dostupný pouze v angličtině a není doladěn pro konkrétní hlasy, takže pokud nepoužijete úpravu zvuku, pokaždé dostanete jiný hlas. Ale na open-source projekt jsou výsledky naprosto ohromující.

Začínáme: Lokální spuštění Dia-1.6B

Jste připraveni vyzkoušet Dia-1.6B sami? Zde je váš podrobný návod, ať už jej chcete spustit lokálně nebo v cloudu.

Požadavky na hardware

⬩ VRAM: Potřebuje asi 10 GB (ideální je grafická karta T4 na Google Colab)
⬩ OS: Linux, macOS nebo Windows
⬩ Krajta: 3.8+

Naklonujte repozitář a nastavte si prostředí

praštit

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Nebo pokud používáte Google Colab:

krajta

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

Pro dosažení nejlepších výsledků přepněte v Colabu na grafický procesor T4.

Stáhnout hmotnost modelu

Váhy modelu jsou hostovány na Hugging Face. Budete potřebovat přístupový token Hugging Face (vytvořte si ho na objímání obličeje).

krajta

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

Generování řeči z textu

Zde je ukázkový scénář, který ukazuje dialog a neverbální prvky:

krajta

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Zvuk můžete přehrát pomocí libovolného standardního přehrávače nebo v Jupyteru/Colabu:

krajta

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

Klonování a úprava hlasu

Dia podporuje klonování hlasu podmíněním zvukového vzorku. Nahrajte svůj referenční zvuk a přepis do prostoru Hugging Face Space nebo použijte vzorový skript v example/voice_clone.py z repozitáře.

Možnost bez kódu: Vyzkoušejte Dia-1.6B online

Nechcete se hrát s kódem? Zamiřte na oficiální stránku Hugging Face Space:

Demo Dia-1.6B (objímající obličej)

Stačí vložit skript, přidat zvukovou výzvu, pokud chcete naklonovat hlas, a stisknout tlačítko Generovat. Je to tak jednoduché.

Ukázkový projekt: Vytvoření konverzačního bota s Dia-1.6B

Zde je rychlý příklad v Pythonu pro vytvoření jednoduchého dialogového bota:

krajta

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Výstupní vzorek:

Nejlepší postupy a tipy od profesionálů

Klonování hlasu: Pro konzistentní hlasy použijte funkci zvukových pokynů nebo nastavte náhodný počet hlasů.

Použijte štítky reproduktorů: Vždy označte řečníky jako [S1], [S2]atd. pro vícehlasý dialog.

Využijte neverbální signály: Vložte například (laughs) or (sighs) pro realističtější výstup.

Klonování hlasu: Pro konzistentní hlasy použijte funkci zvukových pokynů nebo nastavte náhodný počet hlasů.

hardware: Pro dosažení nejlepší rychlosti použijte grafickou kartu s alespoň 10 GB VRAM. Podpora CPU bude brzy k dispozici.

Etika: Nepoužívejte Dia ke zneužití identity, hluboké zápasy, nebo klamavý obsah. Je to mocné – používejte to zodpovědně.

Komunita a podpora

Odstraňování problémů a časté dotazy

Proč můj hlas zní s každou generací jinak?

Dia-1.6B není ve výchozím nastavení jemně doladěn pro konkrétní hlasy. Pro konzistentní výstup použijte funkci úpravy zvuku s referenčním samplem nebo zkuste nastavit pevný náhodný seed.

Mohu použít Dia-1.6B pro komerční projekty?

Ano! Dia-1.6B je vydáván pod licencí Apache 2.0, která umožňuje bezplatné použití pro osobní i komerční účely bez omezení.

Podporuje Dia-1.6B i jiné jazyky než angličtinu?

Dia-1.6B v současné době podporuje pouze generování textu na řeč v angličtině. Vícejazyčná podpora může být přidána v budoucích verzích v souladu s plánem.

Jak vytvořím dialog s více řečníky?

Ve scénáři používejte jednoduché tagy jako [S1] a [S2] k označení různých mluvčích. Pro další mluvčí pokračujte s [S3], [S4] atd. a zachovávejte konzistentní hlasy postav.

Jak naklonuji konkrétní hlas pomocí Dia-1.6B?

Do sekce „Zvukový prompt“ nahrajte 10–20sekundový zvukový vzorek ve vysoké kvalitě spolu s jeho přesným přepisem. Model analyzuje a porovnává hlasové charakteristiky ve vygenerovaném výstupu.

Sečteno a podtrženo: Proč je Dia-1.6B důležitý

Dia-1.6B představuje přesný okamžik AI syntéza řeči překročil hranici od „působivé technologie“ k „průlomu v oboru“. Zatímco technologičtí giganti utráceli miliony za zdokonalování svých obezděných zahrad, tento model postavený studenty tiše přepisoval pravidla. Co se stane, až se prémiová kvalita hlasu stane zdarma? Až emocionální nuance přestanou stát poplatky za předplatné?

Jste připraveni dát svým projektům skutečný hlas?
Stáhněte si Dia-1.6B, spusťte skripty a nechte svůj obsah mluvit sám za sebe. Pokud narazíte na nějaké problémy, Laboratoře Nari komunita překypuje podporou a nápady. Pojďme to udělat AI zdravý člověk - jeden open-source model po druhém.