Dia-1.6B: Бесплатный голос AI Это лучше, чем 30 долларов в месяц за премиум-услуги

by Али

1 год назад 0 773

Dia-1.6B Модель TTS с открытым исходным кодом

Dia-1.6B представляет собой замечательный модель преобразования текста в речь с открытым исходным кодом которая's изменение ожиданий в отношении синтеза звука по всему миру AI общинах.

Создано двумя студентами бакалавриата Лаборатории Нари Без внешнего финансирования эта модель с 1.6 миллиардами параметров обеспечивает качество звука, сопоставимое с такими премиум-сервисами, как ElevenLabs и Sesame CSM-1B.

В этом руководстве рассматривается Dia-1.6B's возможности, требования к реализации и практическое применение для разработчиков, создатели контента и AI специалисты, ищущие готовые к использованию речевые технологии.

Что такое Dia-1.6B? Почему о нем все говорят?

Dia-1.6B — это современная модель TTS с открытым исходным кодом, разработанная для создания ультрареалистичных, выразительных диалогов из обычного текста. В отличие от большинства моделей TTS, которые просто выплевывают роботизированные предложения, Dia-1.6B может:

Работа с несколькими ораторами используя простые теги, такие как [S1], [S2], и т.д.
Генерируйте невербальные сигналы такие как смех, кашель, вздохи и многое другое прямо из сценария.
Клонируйте голоса и управляйте эмоциями/тоном путем создания условий на аудио сэмплы.
Предоставлять открытые веса и код в Apache 2.0, поэтому вы не привязаны к поставщику или черному ящику.

И вот в чем фишка: его построили два корейских студента, а не мегафинансируемая лаборатория Кремниевой долины. Они использовали Google TPU Research Cloud для вычислений, показав, что с правильными инструментами независимые разработчики могут превзойти себя.

Основные характеристики и уникальные преимущества

Параметры 1.6Б: Достаточно мощи, чтобы уловить тонкости человеческой речи, эмоций и ритма.
Дизайн «Диалог-сначала»: Создан для обработки непрерывных разговоров, а не только отдельных линий.
Теги спикера: Используйте [S1], [S2]и т. д. для создания естественных многоговорящих сценариев.
Генерация невербальных звуков: Вставьте реплики, например (laughs), (coughs), (sighs), и Dia сгенерирует их в аудио.
Клонирование голоса: Введите аудиозапись и расшифровку, чтобы настроить вывод на определенный голос или эмоцию.
Открытый источник: Бесплатно использовать, изменять и развертывать для исследований и коммерческие проекты.
Вывод в реальном времени: На корпоративных графических процессорах вы получаете генерацию практически в реальном времени — около 40 токенов в секунду на NVIDIA A4000.

Как Dia-1.6B соотносится с конкурентами?

Dia-1.6B уже превосходит таких коммерческих гигантов, как Одиннадцать лабораторий Studio и Sesame CSM-1B по выразительности, таймингу и обработке невербальных сигналов. В параллельных демонстрациях пользователи хвалили его способность улавливать естественный диалог и эмоциональный тон, что часто отсутствует в устаревших системах TTS.

В чем подвох? Модель в настоящее время доступна только на английском языке и не настроена на конкретные голоса, поэтому вы будете получать разные голоса каждый раз, если не используете аудиокондиционирование. Но для проекта с открытым исходным кодом результаты просто ошеломляющие.

Начало работы: локальный запуск Dia-1.6B

Готовы попробовать Dia-1.6B самостоятельно? Вот пошаговое руководство, хотите ли вы запустить его локально или в облаке.

Требования к оборудованию

⬩ VRAM: Требуется около 10 ГБ (идеально подойдет графический процессор T4 на Google Colab)
⬩ ОС: Linux, macOS или Windows
⬩ Питон: 3.8+

Клонируйте репозиторий и настройте свою среду

колотить

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Или, если вы используете Google Colab:

питон

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

Для достижения наилучших результатов переключитесь на графический процессор T4 в Colab.

Скачать модель веса

Веса моделей размещены на Hugging Face. Вам понадобится токен доступа Hugging Face (создайте его на Обнимающее лицо).

питон

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

Генерация речи из текста

Вот пример сценария, демонстрирующего диалог и невербальные особенности:

питон

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Вы можете воспроизвести аудио с помощью любого стандартного проигрывателя или в Jupyter/Colab:

питон

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

Клонирование и обработка голоса

Диаметр опор клонирование голоса путем обуславливания аудио образца. Загрузите свой референсный аудио и транскрипт в Hugging Face Space или используйте пример сценария в example/voice_clone.py из репо.

Вариант без кода: попробуйте Dia-1.6B онлайн

Не хотите возиться с кодом? Зайдите на официальный Hugging Face Space:

Dia-1.6B Demo (Обнимающее лицо)

Просто вставьте свой скрипт, добавьте звуковую подсказку, если хотите клонировать голос, и нажмите «Сгенерировать». Это так просто.

Пример проекта: создание разговорного бота с помощью Dia-1.6B

Вот небольшой пример на Python для создания простого диалогового бота:

питон

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Результат выборки:

Лучшие практики и профессиональные советы

Клонирование голоса: Для получения единообразных голосов используйте функцию звуковых подсказок или установите случайное начальное число.

Используйте теги спикера: Всегда отмечайте спикеров как [S1], [S2]и т. д. для многоголосого диалога.

Используйте невербальные сигналы: Вставьте реплики, например (laughs) or (sighs) для более реалистичного результата.

Оборудование: Для лучшей скорости используйте графический процессор с объемом видеопамяти не менее 10 ГБ. Поддержка центрального процессора появится в ближайшее время.

Этика: Не используйте Dia для неправомерного использования личных данных. deepfakes, или обманчивый контент. Он мощный — используйте его ответственно.

Сообщество и поддержка

Устранение неполадок и часто задаваемые вопросы

Почему мой голос звучит по-разному с каждым поколением?

Dia-1.6B не настроен на конкретные голоса по умолчанию. Для получения согласованного вывода используйте функцию аудиокондиционирования с эталонным образцом или попробуйте установить фиксированное случайное начальное значение.

Могу ли я использовать Dia-1.6B в коммерческих проектах?

Да! Dia-1.6B выпускается под лицензией Apache 2.0, допускающей свободное использование как в личных, так и в коммерческих целях без ограничений.

Поддерживает ли Dia-1.6B другие языки, помимо английского?

В настоящее время Dia-1.6B поддерживает только генерацию текста в речь на английском языке. Многоязычная поддержка может быть добавлена в будущих версиях в соответствии с дорожной картой.

Как создать диалог с несколькими говорящими?

Используйте простые теги, такие как [S1] и [S2] в вашем сценарии, чтобы обозначить разных говорящих. Для дополнительных говорящих продолжайте с [S3], [S4] и т. д., сохраняя последовательные голоса персонажей.

Как клонировать определенный голос с помощью Dia-1.6B?

Загрузите 10-20-секундный высококачественный аудиосэмпл в раздел «Аудиоподсказка» вместе с его точной расшифровкой. Модель проанализирует и сопоставит голосовые характеристики в сгенерированном выводе.

Итог: почему Dia-1.6B имеет значение

Dia-1.6B представляет точный момент AI синтез речи перешла порог от «впечатляющей технологии» до «разрушителя отрасли». Пока технологические гиганты тратили миллионы на совершенствование своих огороженных садов, эта модель, созданная студентами, тихо переписала правила. Что произойдет, когда качество голоса премиум-уровня станет бесплатным? Когда эмоциональный нюанс больше не будет стоить абонентской платы?

Готовы ли вы дать своим проектам реальный голос?
Загрузите Dia-1.6B, запустите свои скрипты и позвольте вашему контенту говорить самому за себя. Если вы столкнетесь с какими-либо препятствиями, Лаборатории Нари сообщество бурлит поддержкой и идеями. Давайте сделаем AI звучать по-человечески — по одной модели с открытым исходным кодом за раз.

Диа-1.6Б, Модель преобразования текста в речь

Читать

Гиды

Нетехнический AI Вакансии: 15 профессий, не требующих программирования

2 дней назад

0 33

Гиды

Как построить свой первый AI Рабочий процесс без кода (и экономия времени каждую неделю)

1 неделю назад

0 65

Гиды

Как использовать AI для анализа данных, не будучи специалистом по анализу данных

1 неделю назад

0 44

Оставьте комментарий Отменить ответ

Этот сайт использует Akismet для уменьшения количества спама. Узнайте, как обрабатываются данные ваших комментариев.

Топ AI Инструменты

9Маршрутизатор

Прекратите растрачивать бюджет API — используйте более продуманные маршруты, пишите более длинный код. Открытый исходный код AI Прокси-сервер, обеспечивающий круглосуточную работу вашей среды разработки.

Dia-1.6B: Бесплатный голос AI Это лучше, чем 30 долларов в месяц за премиум-услуги

Что такое Dia-1.6B? Почему о нем все говорят?

Основные характеристики и уникальные преимущества

Как Dia-1.6B соотносится с конкурентами?

Начало работы: локальный запуск Dia-1.6B

Клонируйте репозиторий и настройте свою среду

Скачать модель веса

Генерация речи из текста

Клонирование и обработка голоса

Вариант без кода: попробуйте Dia-1.6B онлайн

Пример проекта: создание разговорного бота с помощью Dia-1.6B

Лучшие практики и профессиональные советы

Сообщество и поддержка

Устранение неполадок и часто задаваемые вопросы

Почему мой голос звучит по-разному с каждым поколением?

Могу ли я использовать Dia-1.6B в коммерческих проектах?

Поддерживает ли Dia-1.6B другие языки, помимо английского?

Как создать диалог с несколькими говорящими?

Как клонировать определенный голос с помощью Dia-1.6B?

Итог: почему Dia-1.6B имеет значение

Оставьте комментарий Отменить ответ

Присоединяйтесь к команде Aimojo Племя!

Лучшие посты для чтения

Ссылки на сайты

Ближайшие События