Dia-1.6B: Ücretsiz Ses AI Aylık 30 Dolarlık Premium Hizmetlerden Daha İyi

by Ali

1 yıl önce 0 773

Dia-1.6B dikkat çekici bir şekilde duruyor açık kaynaklı metinden sese modeli o's ses sentezi beklentilerini yeniden şekillendiriyor AI topluluk.

İki lisans öğrencisi tarafından yaratıldı Nari Laboratuvarları Harici bir fonlama olmadan, bu 1.6 milyar parametreli model, ElevenLabs ve Sesame CSM-1B gibi premium hizmetlerle karşılaştırılabilir bir ses kalitesi üretiyor.

Bu kılavuz Dia-1.6B'yi inceler's yetenekler, uygulama gereksinimleri ve geliştiriciler için pratik uygulamalar, içerik oluşturucuları, ve AI Üretime hazır konuşma teknolojisi arayan uygulayıcılar.

Dia-1.6B Nedir? Neden Herkes Bundan Bahsediyor?

Dia-1.6B, düz metinden ultra gerçekçi, etkileyici diyaloglar üretmek için tasarlanmış, son teknoloji, açık kaynaklı bir TTS modelidir. Sadece robotik cümleler üreten çoğu TTS modelinin aksine, Dia-1.6B şunları yapabilir:

Birden fazla hoparlörü idare edin gibi basit etiketler kullanarak [S1], [S2], vb.
Sözsüz ipuçları üretin gülme, öksürük, iç çekme ve daha fazlası doğrudan senaryodan geliyor.
Sesleri klonlayın ve duygu/tonu kontrol edin şartlandırma yoluyla ses örnekleri.
Açık ağırlıkları ve kodları teslim edin Apache 2.0 altında, yani bir satıcıya veya kara kutuya bağlı değilsiniz.

Ve işte can alıcı nokta: Bu, mega fonlu bir Silikon Vadisi laboratuvarı değil, iki Koreli lisans öğrencisi tarafından inşa edildi. Hesaplama için Google'ın TPU Araştırma Bulutu'ndan yararlandılar ve doğru araçlarla bağımsız geliştiricilerin kendi ağırlıklarının üstünde performans gösterebileceğini gösterdiler.

Temel Özellikler ve Benzersiz Avantajlar

1.6B Parametreleri: İnsan konuşmasının, duygusunun ve zamanlamasının inceliklerini yakalayacak kadar kas.
Diyalog-Öncelikli Tasarım: Sadece izole hatları değil, ileri geri konuşmaları da idare edecek şekilde tasarlandı.
Konuşmacı Etiketleri: Kullanım [S1], [S2]vb. kullanarak doğal çok konuşmacılı senaryolar oluşturmak.
Sözsüz Ses Üretimi: Şu ipuçlarını ekleyin: (laughs), (coughs), (sighs)ve Dia bunları ses dosyasında üretecek.
Ses Klonlama: Çıktıyı belirli bir sese veya duyguya göre koşullandırmak için bir ses örneği ve transkript verin.
Açık kaynak: Araştırma ve geliştirme için kullanımı, değiştirilmesi ve dağıtımı ücretsizdir. ticari projeler.
Gerçek Zamanlı Çıkarım: Kurumsal GPU'larda gerçek zamanlı üretime yakın bir hız elde edersiniz; NVIDIA A40'de saniyede yaklaşık 4000 token.

Dia-1.6B Rakipleriyle Karşılaştırıldığında Nasıl?

Dia-1.6B halihazırda şu gibi ticari devleri geride bırakıyor: Eleven Laboratuvarları Studio ve Sesame CSM-1B ifade gücü, zamanlama ve sözel olmayan ipuçlarının işlenmesinde. Yan yana demolarda, kullanıcılar doğal diyalog akışını ve duygusal tonu yakalama becerisini övdüler; bu, eski TTS sistemlerinde genellikle eksiktir.

Ne avı var Model şu anda yalnızca İngilizce ve belirli sesler üzerinde ince ayar yapılmamış, bu nedenle ses koşullandırmasını kullanmadığınız sürece her seferinde farklı bir ses elde edeceksiniz. Ancak açık kaynaklı bir proje için sonuçlar şaşırtıcı olmaktan öte değil.

Başlarken: Dia-1.6B'yi Yerel Olarak Çalıştırma

Dia-1.6B'yi kendiniz denemeye hazır mısınız? İster yerel olarak ister bulutta çalıştırmak isteyin, işte adım adım kılavuzunuz.

Donanım Gereksinimleri

⬩ VRAM: Yaklaşık 10 GB'a ihtiyaç var (Google Colab'daki bir T4 GPU mükemmeldir)
⬩ OS: Linux, macOS veya Windows
⬩ Piton: 3.8+

Depoyu Klonlayın ve Ortamınızı Kurun

darbe

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Veya Google Colab kullanıyorsanız:

piton

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

En iyi sonuçlar için Colab'da T4 GPU'ya geçin.

Model Ağırlıklarını İndirin

Model ağırlıkları Hugging Face'de barındırılır. Bir Hugging Face erişim belirtecine ihtiyacınız olacak (bir tane oluşturun sarılmakyüz).

piton

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

Metinden Konuşma Üret

İşte diyalog ve sözel olmayan özellikleri gösteren örnek bir senaryo:

piton

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Sesi herhangi bir standart oynatıcıyı kullanarak veya Jupyter/Colab içinde oynatabilirsiniz:

piton

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")

Ses Klonlama ve Koşullandırma

Dia destekliyor ses klonlama bir ses örneğine koşullandırılarak. Referans sesinizi ve transkriptinizi Hugging Face Space'e yükleyin veya örnek betiği kullanın example/voice_clone.py depodan.

Kodsuz Seçenek: Dia-1.6B'yi Çevrimiçi Deneyin

Kodlarla uğraşmak istemiyor musunuz? Resmi Hugging Face Space'e gidin:

Dia-1.6B Demo (Sarılan Yüz)

Sadece betiğinizi yapıştırın, bir ses klonlamak istiyorsanız bir ses istemi ekleyin ve oluştur'a basın. Bu kadar basit.

Örnek Proje: Dia-1.6B ile Konuşma Botu Oluşturma

Basit bir diyalog botu oluşturmak için kısa bir Python örneği:

piton

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Örnek çıktı:

En İyi Uygulamalar ve Profesyonel İpuçları

Ses Klonlama: Tutarlı sesler için sesli uyarı özelliğini kullanın veya rastgele bir başlangıç noktası ayarlayın.

Konuşmacı Etiketlerini Kullan: Konuşmacıları her zaman şu şekilde işaretle: [S1], [S2]vb. çok sesli diyaloglar için.

Sözsüz İpuçlarını Kullanın: Şu ipuçlarını ekleyin: (laughs) or (sighs) daha gerçekçi çıktılar için.

Ses Klonlama: Tutarlı sesler için sesli uyarı özelliğini kullanın veya rastgele bir başlangıç noktası ayarlayın.

donanım: En iyi hız için en az 10 GB VRAM'e sahip bir GPU kullanın. CPU desteği yakında geliyor.

Etik: Kimliğinizi kötüye kullanmak için Dia'yı kullanmayın. deepfakes, veya aldatıcı içerik. Güçlüdür - sorumlu bir şekilde kullanın.

Topluluk ve Destek

Sorun Giderme ve SSS

Sesim neden her nesilde farklı çıkıyor?

Dia-1.6B varsayılan olarak belirli seslerde ince ayarlı değildir. Tutarlı çıkış için, referans örneğiyle ses koşullandırma özelliğini kullanın veya sabit bir rastgele tohum ayarlamayı deneyin.

Dia-1.6B'yi ticari projelerde kullanabilir miyim?

Evet! Dia-1.6B, Apache 2.0 lisansı altında yayınlanmıştır ve hem kişisel hem de ticari amaçlar için kısıtlama olmaksızın ücretsiz kullanıma izin verir.

Dia-1.6B İngilizce dışında başka dilleri de destekliyor mu?

Şu anda Dia-1.6B yalnızca İngilizce metinden sese dönüştürmeyi destekliyor. Yol haritasına göre gelecekteki sürümlerde çok dilli destek eklenebilir.

Birden fazla konuşmacıyla nasıl diyalog kurabilirim?

Komut dosyanızda farklı konuşmacıları belirtmek için [S1] ve [S2] gibi basit etiketler kullanın. Ek konuşmacılar için, tutarlı karakter seslerini koruyarak [S3], [S4] vb. ile devam edin.

Dia-1.6B ile belirli bir sesi nasıl klonlarım?

"Ses İstemi" bölümüne 10-20 saniyelik yüksek kaliteli bir ses örneği ve tam metni yükleyin. Model, oluşturulan çıktıdaki ses özelliklerini analiz edecek ve eşleştirecektir.

Sonuç: Dia-1.6B Neden Önemlidir?

Dia-1.6B tam anı temsil ediyor AI konuşma sentezi "etkileyici teknoloji"den "endüstri bozucu"ya geçiş eşiğini geçti. Teknoloji devleri duvarlı bahçelerini mükemmelleştirmek için milyonlar harcarken, öğrencilerin oluşturduğu bu model sessizce kuralları yeniden yazdı. Üst düzey ses kalitesi ücretsiz olduğunda ne olacak? Duygusal nüans artık abonelik ücreti gerektirmediğinde ne olacak?

Projelerinize gerçek bir ses vermeye hazır mısınız?
Dia-1.6B'yi indirin, komut dosyalarınızı çalıştırın ve içeriğinizin kendi adına konuşmasına izin verin. Herhangi bir sorunla karşılaşırsanız, Nari Laboratuvarları topluluk destek ve fikirlerle dolu. Hadi yapalım AI sağlam insan-her seferinde bir açık kaynak modeli.