Dia-1.6B: Вільний голос AI Це краще, ніж преміум-послуги за 30 доларів на місяць

by Алі

1 рік тому 0 773

Dia-1.6B є визначним модель перетворення тексту в мовлення з відкритим кодом Що's зміна очікувань щодо аудіосинтезу в усьому світі AI співтовариство.

Створено двома студентами бакалаврату в Лабораторії Нарі Без зовнішнього фінансування ця модель з 1.6 мільярдами параметрів забезпечує якість звуку, порівнянну з преміум-сервісами, такими як ElevenLabs та Sesame CSM-1B.

У цьому посібнику розглядається Dia-1.6B's можливості, вимоги до впровадження та практичне застосування для розробників, творці контенту та AI фахівці, які шукають готові до використання технології мовлення.

Що таке Діа-1.6B? Чому всі про це говорять?

Dia-1.6B — це сучасна модель TTS з відкритим кодом, розроблена для створення ультрареалістичних, виразних діалогів зі звичайного тексту. На відміну від більшості моделей TTS, які просто вимовляють роботизовані речення, Dia-1.6B може:

Керування кількома динаміками використовуючи прості теги, такі як [S1], [S2], І т.д.
Генеруйте невербальні сигнали як-от сміх, кашель, зітхання та багато іншого прямо зі сценарію.
Клонування голосів та контроль емоцій/тону шляхом обумовлення звукові зразки.
Надання відкритих ваг та коду під Apache 2.0, тож ви не прив'язані до постачальника чи чорної скриньки.

А ось у чому вся фішка: його створили два корейські студенти, а не мегафінансована лабораторія Кремнієвої долини. Вони використовували хмарне сховище Google TPU Research Cloud для обчислень, показавши, що з правильними інструментами незалежні розробники можуть досягти успіху навіть понад норму.

Основні характеристики та унікальні переваги

Параметри 1.6B: Достатньо м'язів, щоб вловлювати тонкощі людської мови, емоцій та ритму.
Дизайн, орієнтований на діалог: Створений для обробки прямих розмов, а не лише окремих ліній.
Теги спікера: Скористайтеся кнопкою [S1], [S2]тощо для створення природних сценаріїв для кількох мовців.
Невербальна генерація звуків: Вставте такі підказки, як (laughs), (coughs), (sighs), а Dia згенерує їх в аудіо.
Клонування голосу: Передайте аудіозразок та стенограму, щоб налаштувати вихідний сигнал на певний голос або емоцію.
Відкрите джерело: Безкоштовно використовувати, змінювати та розгортати для досліджень та комерційні проекти.
Висновок у реальному часі: На корпоративних графічних процесорах ви отримуєте генерацію майже в режимі реального часу — близько 40 токенів/сек на NVIDIA A4000.

Як Dia-1.6B порівнюється з конкурентами?

Dia-1.6B вже перевершує комерційних гігантів, таких як ElevenLabs Studio та Sesame CSM-1B у виразності, таймінгу та обробці невербальних сигналів. У порівняльних демонстраціях користувачі високо оцінили його здатність вловлювати природний хід діалогу та емоційний тон, чого часто бракує у застарілих системах синтезу мовлення.

Що таке зловити? Модель наразі доступна лише англійською мовою та не налаштована на конкретні голоси, тому щоразу ви отримуватимете різний голос, якщо не використовуватимете аудіокондиціонування. Але для проєкту з відкритим кодом результати просто приголомшливі.

Початок роботи: Локальний запуск Dia-1.6B

Готові спробувати Dia-1.6B самостійно? Ось покрокова інструкція, незалежно від того, чи хочете ви запускати його локально, чи в хмарі.

Вимоги до обладнання

⬩ VRAM: Потрібно близько 10 ГБ (ідеально підійде відеокарта T4 на Google Colab)
⬩ ОС: Linux, macOS або Windows
⬩ python: 3.8 +

Клонуйте репозиторій та налаштуйте своє середовище

бити

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Або, якщо ви користуєтеся Google Colab:

пітон

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

Для найкращих результатів перейдіть на графічний процесор T4 у Colab.

Завантажити модельні ваги

Ваги моделі розміщені на Hugging Face. Вам знадобиться токен доступу Hugging Face (створіть його на Обіймає обличчя).

пітон

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

Генерація мовлення з тексту

Ось зразок сценарію, який демонструє діалог та невербальні особливості:

пітон

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Ви можете відтворити аудіо за допомогою будь-якого стандартного плеєра або в Jupyter/Colab:

пітон

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

Клонування та кондиціонування голосу

Підтримка Діа клонування голосу шляхом кондиціонування на аудіозразку. Завантажте свій еталонний аудіозапис та стенограму в простір Hugging Face або скористайтеся прикладом сценарію в example/voice_clone.py з репозиторію.

Варіант без коду: спробуйте Dia-1.6B онлайн

Не хочете возитися з кодом? Завітайте до офіційного простору Hugging Face:

Демо Dia-1.6B (Обіймаюче обличчя)

Просто вставте свій скрипт, додайте звукову підказку, якщо хочете клонувати голос, і натисніть «Згенерувати». Це так просто.

Приклад проекту: Створення розмовного бота за допомогою Dia-1.6B

Ось швидкий приклад на Python для створення простого діалогового бота:

пітон

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Вибірка вибірки:

Найкращі практики та поради професіоналів

Клонування голосу: Для узгодженого звучання голосів скористайтеся функцією аудіопідказок або встановіть випадкове початкове значення.

Використовуйте теги спікера: Завжди позначайте доповідачів як [S1], [S2]тощо для багатоголосного діалогу.

Використовуйте невербальні сигнали: Вставте такі підказки, як (laughs) or (sighs) для більш реалістичного виходу.

Обладнання: Для найкращої швидкості використовуйте графічний процесор з принаймні 10 ГБ відеопам'яті. Підтримка процесорів з'явиться найближчим часом.

етика: Не використовуйте Dia для неправомірного використання ідентифікаційних даних. deepfakes, або оманливий контент. Це потужний засіб – використовуйте його відповідально.

Спільнота та підтримка

Усунення несправностей і поширені запитання

Чому мій голос звучить по-різному з кожним поколінням?

Dia-1.6B за замовчуванням не налаштовується точно на певні голоси. Для стабільного відтворення використовуйте функцію кондиціонування звуку з опорним семплом або спробуйте встановити фіксоване випадкове початкове значення.

Чи можна використовувати Dia-1.6B для комерційних проектів?

Так! Dia-1.6B випущено під ліцензією Apache 2.0, що дозволяє вільне використання як для особистих, так і для комерційних цілей без обмежень.

Чи підтримує Dia-1.6B мови, окрім англійської?

Наразі Dia-1.6B підтримує генерацію тексту в мовлення лише англійською мовою. Підтримка кількох мов може бути додана в майбутніх версіях відповідно до плану розвитку.

Як створити діалог з кількома спікерами?

Використовуйте прості теги, такі як [S1] та [S2] у своєму сценарії, щоб позначити різних спікерів. Для додаткових спікерів продовжуйте з [S3], [S4] тощо, зберігаючи узгодженість голосів персонажів.

Як клонувати певний голос за допомогою Dia-1.6B?

Завантажте 10-20-секундний аудіозразок високої якості в розділ «Аудіопідказка» разом з його точним розшифровкою. Модель проаналізує та зіставить голосові характеристики у згенерованому виході.

Підсумок: Чому Dia-1.6B важливий

Dia-1.6B представляє точний момент AI синтез мовлення перетнув поріг від «вражаючих технологій» до «індустріального прориву». Поки технологічні гіганти витрачали мільйони на вдосконалення своїх огороджених садів, ця модель, створена студентами, непомітно переписала правила. Що станеться, коли преміальна якість голосового зв’язку стане безкоштовною? Коли емоційні нюанси більше не будуть коштувати абонентської плати?

Готові дати своїм проектам справжній голос?
Завантажте Dia-1.6B, запустіть свої скрипти та дозвольте своєму контенту говорити сам за себе. Якщо у вас виникнуть будь-які проблеми, Лабораторії Нарі спільнота вирує підтримкою та ідеями. Давайте зробимо AI здорова людина - одна модель з відкритим кодом за раз.