Dia-1.6B: Vaba hääl AI See edestab 30 dollari suurust kuutasulist premium-teenust

by Ali

1 aasta tagasi 0 773

Dia-1.6B on tähelepanuväärne avatud lähtekoodiga tekstist kõneks teisendamise mudel et's heli sünteesi ootuste ümberkujundamine kogu AI kogukonnas.

Loodud kahe bakalaureuseõppe üliõpilase poolt Nari Labs Ilma välise rahastamiseta pakub see 1.6 miljardi parameetriga mudel helikvaliteeti, mis on võrreldav selliste premium-teenustega nagu ElevenLabs ja Sesame CSM-1B.

See juhend uurib Dia-1.6B-d's arendajatele mõeldud võimalused, rakendusnõuded ja praktilised rakendused, sisu loojadja AI praktikud, kes otsivad tootmisvalmis kõnetehnoloogiat.

Mis on Dia-1.6B? Miks kõik sellest räägivad?

Dia-1.6B on tipptasemel avatud lähtekoodiga TTS-mudel, mis on loodud ülirealistliku ja väljendusrikka dialoogi genereerimiseks tavalisest tekstist. Erinevalt enamikust TTS-mudelitest, mis lihtsalt robotlikke lauseid välja sülitavad, suudab Dia-1.6B:

Mitme kõlari haldamine kasutades lihtsaid märke, näiteks [S1], [S2]Jne
Genereerige mitteverbaalseid vihjeid nagu naer, köha, ohked ja palju muud otse stsenaariumist.
Klooni hääli ja kontrolli emotsioone/tooni tingimusel helinäidised.
Avatud kaalude ja koodi edastamine Apache 2.0 all, nii et te pole seotud ühegi müüja või musta kastiga.

Ja siin on konks: selle ehitasid kaks Korea bakalaureuseõppe tudengit, mitte megarahastatud Silicon Valley labor. Nad kasutasid arvutusteks Google'i TPU Research Cloudi, näidates, et õigete tööriistadega suudavad sõltumatud arendajad endast rohkem kasu lõigata.

Peamised omadused ja ainulaadsed eelised

1.6B parameetrid: Piisavalt lihaseid, et tabada inimkõne, emotsioonide ja ajastuse peensusi.
Dialoogikeskne disain: Loodud edasi-tagasi vestluste, mitte ainult üksikute ridade haldamiseks.
Esineja sildid: Kasutama [S1], [S2]jne, et luua loomulikke mitme kõnelejaga skripte.
Mitteverbaalse heli genereerimine: Sisesta vihjeid, näiteks (laughs), (coughs), (sighs)ja Dia genereerib need helis.
Häälkloonimine: Sisesta helinäidis ja transkriptsioon, et väljund sõltuks konkreetsest häälest või emotsioonist.
Avatud lähtekoodiga: Tasuta kasutatav, muudetav ja juurutatav uurimis- ja kommertsprojektid.
Reaalajas järeldused: Ettevõtte GPU-del on NVIDIA A40-l peaaegu reaalajas genereerimine – umbes 4000 žetooni sekundis.

Kuidas Dia-1.6B konkurentidega võrreldes on?

Dia-1.6B edestab juba praegu kommertshiiglasi nagu ElevenLabs Studio ja Sesame CSM-1B väljendusrikkuse, ajastuse ja mitteverbaalsete vihjete käsitlemise osas. Kõrvuti demodes on kasutajad kiitnud selle võimet tabada loomulikku dialoogivoogu ja emotsionaalset tooni, mis vanemates TTS-süsteemides sageli puudub.

Mis saak on? Mudel on praegu ainult ingliskeelne ja seda pole konkreetsete häälte jaoks peenhäälestatud, seega saate iga kord erineva hääle, kui te ei kasuta heli konditsioneerimist. Kuid avatud lähtekoodiga projekti kohta on tulemused lausa vapustavad.

Alustamine: Dia-1.6B lokaalne käitamine

Kas oled valmis Dia-1.6B-d ise proovima? Siin on samm-sammult juhend, olenemata sellest, kas soovid seda käitada lokaalselt või pilves.

Riistvara nõuded

⬩ VRAM: Vajab umbes 10 GB (Google Colabi T4 GPU on ideaalne)
⬩ OS: Linux, macOS või Windows
⬩ python: 3.8 +

Kloonige hoidla ja seadistage oma keskkond

sisse lööma

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Või kui kasutate Google Colabi:

püüton

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

Parima tulemuse saavutamiseks lülitu Colabis T4 GPU-le.

Laadige alla mudeli kaalud

Mudeli kaalud asuvad Hugging Face'is. Teil on vaja Hugging Face'i juurdepääsutokenit (looge see aadressil Kallistav nägu).

püüton

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

Kõne genereerimine tekstist

Siin on näidisstsenaarium, mis näitab dialoogi ja mitteverbaalseid omadusi:

püüton

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Saate heli esitada mis tahes tavalise pleieri või Jupyteri/Colabi kaudu:

püüton

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

Hääle kloonimine ja konditsioneerimine

Dia toetab hääle kloonimine helinäidise tingimise teel. Laadige oma võrdlusheli ja transkript üles Hugging Face Space'i või kasutage näidisskripti example/voice_clone.py repositooriumist.

Koodita variant: proovi Dia-1.6B veebis

Ei taha koodiga jamada? Mine ametlikku Hugging Face Space'i:

Dia-1.6B demo (kallistav nägu)

Kleebi lihtsalt oma skript, lisa heliviip, kui soovid häält kloonida, ja klõpsa nupul „Genereeri“. Nii lihtne see ongi.

Näidisprojekt: Vestlusroboti loomine Dia-1.6B abil

Siin on kiire Pythoni näide lihtsa dialoogiroboti loomiseks:

püüton

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Proovi väljund:

Parimad tavad ja professionaalide nõuanded

Häälkloonimine: Ühtlaste häälte saamiseks kasutage heliviibade funktsiooni või määrake juhuslik algväärtus.

Kasutage kõneleja silte: Märgi kõnelejad alati kui [S1], [S2]jne mitmehäälse dialoogi jaoks.

Kasutage mitteverbaalseid vihjeid: Sisesta vihjeid, näiteks (laughs) or (sighs) realistlikuma väljundi saamiseks.

Häälkloonimine: Ühtlaste häälte saamiseks kasutage heliviibade funktsiooni või määrake juhuslik algväärtus.

Riistvara: Parima kiiruse saavutamiseks kasutage graafikakaarti, millel on vähemalt 10 GB videomälu. Protsessori tugi on peagi saadaval.

Eetika: Ära kasuta Diat identiteedi väärkasutamiseks. deepfakesvõi petlikku sisu. See on võimas – kasutage seda vastutustundlikult.

Kogukond ja tugi

Veaotsing ja KKK -d

Miks mu hääl igas põlvkonnas erinevalt kõlab?

Dia-1.6B pole vaikimisi konkreetsete häälte jaoks peenhäälestatud. Ühtlase väljundi saavutamiseks kasutage heli töötlemise funktsiooni võrdlusnäidisega või proovige määrata fikseeritud juhuslik algväärtus.

Kas ma saan Dia-1.6B-d kasutada äriprojektides?

Jah! Dia-1.6B on välja antud Apache 2.0 litsentsi alusel, mis võimaldab seda nii isiklikel kui ka ärilistel eesmärkidel ilma piiranguteta vabalt kasutada.

Kas Dia-1.6B toetab lisaks inglise keelele ka teisi keeli?

Praegu toetab Dia-1.6B ainult ingliskeelse teksti kõneks genereerimist. Mitmekeelse toe lisamine võib tulevastesse versioonidesse toimuda vastavalt tegevuskavale.

Kuidas luua dialoogi mitme kõnelejaga?

Kasutage oma skriptis erinevate kõnelejate tähistamiseks lihtsaid silte, näiteks [S1] ja [S2]. Lisakõnelejate puhul jätkake siltidega [S3], [S4] jne, säilitades tegelaste hääle järjepidevuse.

Kuidas ma saan Dia-1.6B abil konkreetse hääle kloonida?

Laadige üles 10–20-sekundiline kvaliteetne helinäidis koos selle täpse transkriptiga jaotisse „Heliülesanne“. Mudel analüüsib ja sobitab genereeritud väljundi hääleomadusi.

Kokkuvõte: miks on Dia-1.6B oluline

Dia-1.6B tähistab täpset hetke AI kõne süntees ületas läve „muljetavaldavast tehnoloogiast“ „tööstuse murranguliseks tegijaks“. Samal ajal kui tehnoloogiahiiglased kulutasid miljoneid oma suletud aedade täiustamisele, kirjutas see tudengite ehitatud mudel vaikselt reegleid ümber. Mis juhtub, kui tipptasemel helikvaliteet muutub tasuta? Kui emotsionaalsete nüansside eest enam tellimistasusid ei küsita?

Kas oled valmis oma projektidele hääle andma?
Laadige alla Dia-1.6B, käivitage oma skriptid ja laske sisul enda eest rääkida. Kui teil tekib probleeme, siis Nari Labs kogukond kihab toetusest ja ideedest. Teeme selle AI heli inimene - üks avatud lähtekoodiga mudel korraga.