
Dia-1.6B представляет собой замечательный модель преобразования текста в речь с открытым исходным кодом которая's изменение ожиданий в отношении синтеза звука по всему миру AI общинах.
Создано двумя студентами бакалавриата Лаборатории Нари Без внешнего финансирования эта модель с 1.6 миллиардами параметров обеспечивает качество звука, сопоставимое с такими премиум-сервисами, как ElevenLabs и Sesame CSM-1B.
В этом руководстве рассматривается Dia-1.6B's возможности, требования к реализации и практическое применение для разработчиков, создатели контента и AI специалисты, ищущие готовые к использованию речевые технологии.
Что такое Dia-1.6B? Почему о нем все говорят?
Dia-1.6B — это современная модель TTS с открытым исходным кодом, разработанная для создания ультрареалистичных, выразительных диалогов из обычного текста. В отличие от большинства моделей TTS, которые просто выплевывают роботизированные предложения, Dia-1.6B может:

- Работа с несколькими ораторами используя простые теги, такие как
[S1],[S2], и т.д. - Генерируйте невербальные сигналы такие как смех, кашель, вздохи и многое другое прямо из сценария.
- Клонируйте голоса и управляйте эмоциями/тоном путем создания условий на аудио сэмплы.
- Предоставлять открытые веса и код в Apache 2.0, поэтому вы не привязаны к поставщику или черному ящику.
И вот в чем фишка: его построили два корейских студента, а не мегафинансируемая лаборатория Кремниевой долины. Они использовали Google TPU Research Cloud для вычислений, показав, что с правильными инструментами независимые разработчики могут превзойти себя.
Основные характеристики и уникальные преимущества
- Параметры 1.6Б: Достаточно мощи, чтобы уловить тонкости человеческой речи, эмоций и ритма.
- Дизайн «Диалог-сначала»: Создан для обработки непрерывных разговоров, а не только отдельных линий.
- Теги спикера: Используйте
[S1],[S2]и т. д. для создания естественных многоговорящих сценариев. - Генерация невербальных звуков: Вставьте реплики, например
(laughs),(coughs),(sighs), и Dia сгенерирует их в аудио. - Клонирование голоса: Введите аудиозапись и расшифровку, чтобы настроить вывод на определенный голос или эмоцию.
- Открытый источник: Бесплатно использовать, изменять и развертывать для исследований и коммерческие проекты.
- Вывод в реальном времени: На корпоративных графических процессорах вы получаете генерацию практически в реальном времени — около 40 токенов в секунду на NVIDIA A4000.
Как Dia-1.6B соотносится с конкурентами?
Dia-1.6B уже превосходит таких коммерческих гигантов, как Одиннадцать лабораторий Studio и Sesame CSM-1B по выразительности, таймингу и обработке невербальных сигналов. В параллельных демонстрациях пользователи хвалили его способность улавливать естественный диалог и эмоциональный тон, что часто отсутствует в устаревших системах TTS.
В чем подвох? Модель в настоящее время доступна только на английском языке и не настроена на конкретные голоса, поэтому вы будете получать разные голоса каждый раз, если не используете аудиокондиционирование. Но для проекта с открытым исходным кодом результаты просто ошеломляющие.
Начало работы: локальный запуск Dia-1.6B
Готовы попробовать Dia-1.6B самостоятельно? Вот пошаговое руководство, хотите ли вы запустить его локально или в облаке.
| Требования к оборудованию | ⬩ VRAM: Требуется около 10 ГБ (идеально подойдет графический процессор T4 на Google Colab) ⬩ ОС: Linux, macOS или Windows ⬩ Питон: 3.8+ |
Клонируйте репозиторий и настройте свою среду
колотить
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
Или, если вы используете Google Colab:
питон
!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile
Для достижения наилучших результатов переключитесь на графический процессор T4 в Colab.
Скачать модель веса
Веса моделей размещены на Hugging Face. Вам понадобится токен доступа Hugging Face (создайте его на Обнимающее лицо).
питон
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
Генерация речи из текста
Вот пример сценария, демонстрирующего диалог и невербальные особенности:
питон
text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100) # Save the audio
Вы можете воспроизвести аудио с помощью любого стандартного проигрывателя или в Jupyter/Colab:
питон
import IPython.display as ipd
ipd.Audio("dia_sample.mp3")
Клонирование и обработка голоса
Диаметр опор клонирование голоса путем обуславливания аудио образца. Загрузите свой референсный аудио и транскрипт в Hugging Face Space или используйте пример сценария в example/voice_clone.py из репо.
Вариант без кода: попробуйте Dia-1.6B онлайн
Не хотите возиться с кодом? Зайдите на официальный Hugging Face Space:

Просто вставьте свой скрипт, добавьте звуковую подсказку, если хотите клонировать голос, и нажмите «Сгенерировать». Это так просто.
Пример проекта: создание разговорного бота с помощью Dia-1.6B
Вот небольшой пример на Python для создания простого диалогового бота:
питон
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""
audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)
Результат выборки:
Лучшие практики и профессиональные советы
Сообщество и поддержка
Устранение неполадок и часто задаваемые вопросы
Почему мой голос звучит по-разному с каждым поколением?
Dia-1.6B не настроен на конкретные голоса по умолчанию. Для получения согласованного вывода используйте функцию аудиокондиционирования с эталонным образцом или попробуйте установить фиксированное случайное начальное значение.
Могу ли я использовать Dia-1.6B в коммерческих проектах?
Да! Dia-1.6B выпускается под лицензией Apache 2.0, допускающей свободное использование как в личных, так и в коммерческих целях без ограничений.
Поддерживает ли Dia-1.6B другие языки, помимо английского?
В настоящее время Dia-1.6B поддерживает только генерацию текста в речь на английском языке. Многоязычная поддержка может быть добавлена в будущих версиях в соответствии с дорожной картой.
Как создать диалог с несколькими говорящими?
Используйте простые теги, такие как [S1] и [S2] в вашем сценарии, чтобы обозначить разных говорящих. Для дополнительных говорящих продолжайте с [S3], [S4] и т. д., сохраняя последовательные голоса персонажей.
Как клонировать определенный голос с помощью Dia-1.6B?
Загрузите 10-20-секундный высококачественный аудиосэмпл в раздел «Аудиоподсказка» вместе с его точной расшифровкой. Модель проанализирует и сопоставит голосовые характеристики в сгенерированном выводе.
Итог: почему Dia-1.6B имеет значение
Dia-1.6B представляет точный момент AI синтез речи перешла порог от «впечатляющей технологии» до «разрушителя отрасли». Пока технологические гиганты тратили миллионы на совершенствование своих огороженных садов, эта модель, созданная студентами, тихо переписала правила. Что произойдет, когда качество голоса премиум-уровня станет бесплатным? Когда эмоциональный нюанс больше не будет стоить абонентской платы?
Готовы ли вы дать своим проектам реальный голос?
Загрузите Dia-1.6B, запустите свои скрипты и позвольте вашему контенту говорить самому за себя. Если вы столкнетесь с какими-либо препятствиями, Лаборатории Нари сообщество бурлит поддержкой и идеями. Давайте сделаем AI звучать по-человечески — по одной модели с открытым исходным кодом за раз.

