
Το Dia-1.6B αποτελεί ένα αξιοσημείωτο μοντέλο μετατροπής κειμένου σε ομιλία ανοιχτού κώδικα ότι's αναδιαμορφώνοντας τις προσδοκίες για σύνθεση ήχου σε ολόκληρο το AI κοινότητα.
Δημιουργήθηκε από δύο προπτυχιακούς φοιτητές στο Nari Labs Χωρίς εξωτερική χρηματοδότηση, αυτό το μοντέλο 1.6 δισεκατομμυρίων παραμέτρων παράγει ποιότητα ήχου συγκρίσιμη με υπηρεσίες υψηλής ποιότητας όπως το ElevenLabs και το Sesame CSM-1B.
Αυτός ο οδηγός εξετάζει το Dia-1.6B's δυνατότητες, απαιτήσεις υλοποίησης και πρακτικές εφαρμογές για προγραμματιστές, δημιουργούς περιεχομένουκαι AI επαγγελματίες που αναζητούν τεχνολογία ομιλίας έτοιμη για παραγωγή.
Τι είναι το Dia-1.6B; Γιατί όλοι μιλάνε γι' αυτό;
Το Dia-1.6B είναι ένα υπερσύγχρονο μοντέλο TTS ανοιχτού κώδικα, σχεδιασμένο για να δημιουργεί εξαιρετικά ρεαλιστικούς, εκφραστικούς διαλόγους από απλό κείμενο. Σε αντίθεση με τα περισσότερα μοντέλα TTS που απλώς δημιουργούν ρομποτικές προτάσεις, το Dia-1.6B μπορεί:

- Χειρισμός πολλαπλών ηχείων χρησιμοποιώντας απλές ετικέτες όπως
[S1],[S2]Κ.λπ. - Δημιουργήστε μη λεκτικά σήματα όπως γέλια, βήχα, αναστεναγμούς και άλλα, απευθείας από το σενάριο.
- Κλωνοποίηση φωνών και έλεγχος συναισθημάτων/τόνου με την προϋπόθεση δείγματα ήχου.
- Παράδοση ανοιχτών βαρών και κώδικα στο Apache 2.0, επομένως δεν είστε κλειδωμένοι σε έναν προμηθευτή ή σε ένα μαύρο κουτί.
Και το πιο σημαντικό: κατασκευάστηκε από δύο Κορεάτες προπτυχιακούς φοιτητές, όχι από κάποιο υπερχρηματοδοτούμενο εργαστήριο της Silicon Valley. Αξιοποίησαν το TPU Research Cloud της Google για υπολογισμούς, δείχνοντας ότι με τα κατάλληλα εργαλεία, οι ανεξάρτητοι κατασκευαστές μπορούν να ξεπεράσουν τις προσδοκίες τους.
Βασικά Χαρακτηριστικά και Μοναδικά Προνόμια
- 1.6B Παράμετροι: Αρκετή δύναμη για να αποτυπώσει τις λεπτότητες του ανθρώπινου λόγου, του συναισθήματος και του συγχρονισμού.
- Σχεδιασμός με Πρώτα τον Διάλογο: Σχεδιασμένο για να χειρίζεται αλληλεπιδραστικές συνομιλίες, όχι μόνο μεμονωμένες γραμμές.
- Ετικέτες ομιλητών: Χρήση
[S1],[S2], κ.λπ. για τη δημιουργία φυσικών σεναρίων για πολλούς ομιλητές. - Μη Λεκτική Παραγωγή Ήχων: Εισαγωγή στοιχείων όπως
(laughs),(coughs),(sighs)και το Dia θα τα δημιουργήσει στον ήχο. - Κλωνοποίηση φωνής: Τροφοδοτήστε ένα δείγμα ήχου και μια μεταγραφή για να επηρεάσετε την έξοδο με βάση μια συγκεκριμένη φωνή ή συναίσθημα.
- Ανοιχτή πηγή: Δωρεάν χρήση, τροποποίηση και ανάπτυξη για έρευνα και εμπορικά έργα.
- Συμπερασματολογία σε πραγματικό χρόνο: Στις εταιρικές GPU, επιτυγχάνεται παραγωγή σχεδόν σε πραγματικό χρόνο - περίπου 40 tokens/δευτερόλεπτο σε μια NVIDIA A4000.
Πώς συγκρίνεται το Dia-1.6B με τον ανταγωνισμό;
Το Dia-1.6B ήδη ξεπερνά σε απόδοση τους εμπορικούς κολοσσούς όπως Eleven Labs Studio και Sesame CSM-1B στην εκφραστικότητα, τον συγχρονισμό και τον χειρισμό μη λεκτικών σημάτων. Σε παράλληλες επιδείξεις, οι χρήστες έχουν επαινέσει την ικανότητά του να αποτυπώνει τη φυσική ροή του διαλόγου και τον συναισθηματικό τόνο, κάτι που συχνά απουσιάζει στα παλαιότερα συστήματα TTS.
Ποιά είναι η παγίδα? Το μοντέλο είναι προς το παρόν μόνο στα Αγγλικά και δεν έχει βελτιστοποιηθεί σε συγκεκριμένες φωνές, επομένως θα έχετε διαφορετική φωνή κάθε φορά, εκτός αν χρησιμοποιείτε ηχητική επεξεργασία. Αλλά για ένα έργο ανοιχτού κώδικα, τα αποτελέσματα είναι απλά εκπληκτικά.
Ξεκινώντας: Εκτέλεση Dia-1.6B τοπικά
Είστε έτοιμοι να δοκιμάσετε το Dia-1.6B; Ακολουθεί ένας αναλυτικός οδηγός, είτε θέλετε να το εκτελέσετε τοπικά είτε στο cloud.
| Απαιτήσεις υλικού | ⬩ VRAM: Χρειάζεται περίπου 10GB (μια GPU T4 στο Google Colab είναι ιδανική) ⬩ OS: Linux, macOS ή Windows ⬩ Πύθων: 3.8 + |
Κλωνοποιήστε το αποθετήριο και ρυθμίστε το περιβάλλον σας
βίαιο χτύπημα
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
Ή, αν χρησιμοποιείτε το Google Colab:
Πύθων
!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile
Αλλάξτε σε μια GPU T4 στο Colab για καλύτερα αποτελέσματα.
Λήψη βαρών μοντέλου
Τα βάρη των μοντέλων φιλοξενούνται στο Hugging Face. Θα χρειαστείτε ένα διακριτικό πρόσβασης στο Hugging Face (δημιουργήστε ένα στη διεύθυνση Αγκάλιασμα).
Πύθων
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
Δημιουργία ομιλίας από κείμενο
Ακολουθεί ένα δείγμα σεναρίου που παρουσιάζει τον διάλογο και τα μη λεκτικά χαρακτηριστικά:
Πύθων
text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100) # Save the audio
Μπορείτε να αναπαράγετε τον ήχο χρησιμοποιώντας οποιοδήποτε τυπικό πρόγραμμα αναπαραγωγής ή μέσα από το Jupyter/Colab:
Πύθων
import IPython.display as ipd
ipd.Audio("dia_sample.mp3")
Κλωνοποίηση και Προετοιμασία Φωνής
Υποστηρίξεις Dia κλωνοποίηση φωνής με βάση ένα δείγμα ήχου. Ανεβάστε τον ήχο αναφοράς και την απομαγνητοφώνηση στο Hugging Face Space ή χρησιμοποιήστε το παράδειγμα σεναρίου στο example/voice_clone.py από το αποθετήριο.
Επιλογή χωρίς κωδικό: Δοκιμάστε το Dia-1.6B online
Δεν θέλετε να ασχοληθείτε με τον κώδικα; Επισκεφθείτε τον επίσημο χώρο του Hugging Face Space:

Απλώς επικολλήστε το σκριπτ σας, προσθέστε μια ηχητική προτροπή αν θέλετε να κλωνοποιήσετε μια φωνή και πατήστε δημιουργία. Είναι τόσο απλό.
Δείγμα Έργου: Δημιουργία ενός Bot Συνομιλίας με το Dia-1.6B
Ακολουθεί ένα γρήγορο παράδειγμα Python για να δημιουργήσετε ένα απλό bot διαλόγου:
Πύθων
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""
audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)
Δείγμα εξόδου:
Βέλτιστες πρακτικές και συμβουλές από επαγγελματίες
Κοινότητα και υποστήριξη
Αντιμετώπιση προβλημάτων και συχνές ερωτήσεις
Γιατί η φωνή μου ακούγεται διαφορετική σε κάθε γενιά;
Το Dia-1.6B δεν βελτιστοποιείται σε συγκεκριμένες φωνές από προεπιλογή. Για συνεπή έξοδο, χρησιμοποιήστε τη λειτουργία προετοιμασίας ήχου με ένα δείγμα αναφοράς ή δοκιμάστε να ορίσετε μια σταθερή τυχαία πηγή.
Μπορώ να χρησιμοποιήσω το Dia-1.6B για εμπορικά έργα;
Ναι! Το Dia-1.6B κυκλοφορεί με την άδεια Apache 2.0, επιτρέποντας την ελεύθερη χρήση τόσο για προσωπικούς όσο και για εμπορικούς σκοπούς χωρίς περιορισμούς.
Υποστηρίζει το Dia-1.6B γλώσσες εκτός από τα Αγγλικά;
Προς το παρόν, το Dia-1.6B υποστηρίζει μόνο τη δημιουργία κειμένου σε ομιλία στα αγγλικά. Ενδέχεται να προστεθεί υποστήριξη σε πολλές γλώσσες σε μελλοντικές εκδόσεις σύμφωνα με τον οδικό χάρτη.
Πώς μπορώ να δημιουργήσω διάλογο με πολλούς ομιλητές;
Χρησιμοποιήστε απλές ετικέτες όπως [S1] και [S2] στο σενάριό σας για να ορίσετε διαφορετικούς ομιλητές. Για επιπλέον ομιλητές, συνεχίστε με [S3], [S4], κ.λπ. διατηρώντας σταθερές φωνές χαρακτήρων.
Πώς μπορώ να κλωνοποιήσω μια συγκεκριμένη φωνή με το Dia-1.6B;
Ανεβάστε ένα δείγμα ήχου υψηλής ποιότητας 10-20 δευτερολέπτων στην ενότητα "Ηχητική Προτροπή" μαζί με την ακριβή μεταγραφή του. Το μοντέλο θα αναλύσει και θα αντιστοιχίσει τα χαρακτηριστικά φωνής στην παραγόμενη έξοδο.
Συμπέρασμα: Γιατί έχει σημασία το Dia-1.6B
Dia-1.6B αντιπροσωπεύει την ακριβή ροπή AI σύνθεση ομιλίας πέρασε το όριο από «εντυπωσιακή τεχνολογία» σε «βιομηχανική ανατροπή». Ενώ οι τεχνολογικοί γίγαντες ξόδεψαν εκατομμύρια για να τελειοποιήσουν τους περιφραγμένους κήπους τους, αυτό το μοντέλο που κατασκεύασαν φοιτητές ξαναέγραψε αθόρυβα τους κανόνες. Τι συμβαίνει όταν η ποιότητα φωνής υψηλής ποιότητας γίνεται δωρεάν; Όταν η συναισθηματική απόχρωση δεν κοστίζει πλέον τέλη συνδρομής;
Είστε έτοιμοι να δώσετε στα έργα σας μια πραγματική φωνή;
Κατεβάστε το Dia-1.6B, ενεργοποιήστε τα σενάρια σας και αφήστε το περιεχόμενό σας να μιλήσει από μόνο του. Εάν αντιμετωπίσετε κάποιο πρόβλημα, το Nari Labs η κοινότητα σφύζει από υποστήριξη και ιδέες. Ας κάνουμε AI υγιές ανθρώπινο μοντέλο - ένα μοντέλο ανοιχτού κώδικα τη φορά.

