Dia-1.6B: Ελεύθερη Φωνή AI Αυτό ξεπερνά τις Premium Υπηρεσίες των 30$/μήνα

Dia-1.6B Το μοντέλο TTS ανοιχτού κώδικα

Το Dia-1.6B αποτελεί ένα αξιοσημείωτο μοντέλο μετατροπής κειμένου σε ομιλία ανοιχτού κώδικα ότι's αναδιαμορφώνοντας τις προσδοκίες για σύνθεση ήχου σε ολόκληρο το AI κοινότητα.

Δημιουργήθηκε από δύο προπτυχιακούς φοιτητές στο Nari Labs Χωρίς εξωτερική χρηματοδότηση, αυτό το μοντέλο 1.6 δισεκατομμυρίων παραμέτρων παράγει ποιότητα ήχου συγκρίσιμη με υπηρεσίες υψηλής ποιότητας όπως το ElevenLabs και το Sesame CSM-1B.

Αυτός ο οδηγός εξετάζει το Dia-1.6B's δυνατότητες, απαιτήσεις υλοποίησης και πρακτικές εφαρμογές για προγραμματιστές, δημιουργούς περιεχομένουκαι AI επαγγελματίες που αναζητούν τεχνολογία ομιλίας έτοιμη για παραγωγή.

Τι είναι το Dia-1.6B; Γιατί όλοι μιλάνε γι' αυτό;

Το Dia-1.6B είναι ένα υπερσύγχρονο μοντέλο TTS ανοιχτού κώδικα, σχεδιασμένο για να δημιουργεί εξαιρετικά ρεαλιστικούς, εκφραστικούς διαλόγους από απλό κείμενο. Σε αντίθεση με τα περισσότερα μοντέλα TTS που απλώς δημιουργούν ρομποτικές προτάσεις, το Dia-1.6B μπορεί:

Νάρι Ντία-1.6Β- AI Μοντέλο TTS
  • Χειρισμός πολλαπλών ηχείων χρησιμοποιώντας απλές ετικέτες όπως [S1], [S2]Κ.λπ.
  • Δημιουργήστε μη λεκτικά σήματα όπως γέλια, βήχα, αναστεναγμούς και άλλα, απευθείας από το σενάριο.
  • Κλωνοποίηση φωνών και έλεγχος συναισθημάτων/τόνου με την προϋπόθεση δείγματα ήχου.
  • Παράδοση ανοιχτών βαρών και κώδικα στο Apache 2.0, επομένως δεν είστε κλειδωμένοι σε έναν προμηθευτή ή σε ένα μαύρο κουτί.

Και το πιο σημαντικό: κατασκευάστηκε από δύο Κορεάτες προπτυχιακούς φοιτητές, όχι από κάποιο υπερχρηματοδοτούμενο εργαστήριο της Silicon Valley. Αξιοποίησαν το TPU Research Cloud της Google για υπολογισμούς, δείχνοντας ότι με τα κατάλληλα εργαλεία, οι ανεξάρτητοι κατασκευαστές μπορούν να ξεπεράσουν τις προσδοκίες τους.

Βασικά Χαρακτηριστικά και Μοναδικά Προνόμια

  • 1.6B Παράμετροι: Αρκετή δύναμη για να αποτυπώσει τις λεπτότητες του ανθρώπινου λόγου, του συναισθήματος και του συγχρονισμού.
  • Σχεδιασμός με Πρώτα τον Διάλογο: Σχεδιασμένο για να χειρίζεται αλληλεπιδραστικές συνομιλίες, όχι μόνο μεμονωμένες γραμμές.
  • Ετικέτες ομιλητών: Χρήση [S1], [S2], κ.λπ. για τη δημιουργία φυσικών σεναρίων για πολλούς ομιλητές.
  • Μη Λεκτική Παραγωγή Ήχων: Εισαγωγή στοιχείων όπως (laughs), (coughs), (sighs)και το Dia θα τα δημιουργήσει στον ήχο.
  • Κλωνοποίηση φωνής: Τροφοδοτήστε ένα δείγμα ήχου και μια μεταγραφή για να επηρεάσετε την έξοδο με βάση μια συγκεκριμένη φωνή ή συναίσθημα.
  • Ανοιχτή πηγή: Δωρεάν χρήση, τροποποίηση και ανάπτυξη για έρευνα και εμπορικά έργα.
  • Συμπερασματολογία σε πραγματικό χρόνο: Στις εταιρικές GPU, επιτυγχάνεται παραγωγή σχεδόν σε πραγματικό χρόνο - περίπου 40 tokens/δευτερόλεπτο σε μια NVIDIA A4000.

Πώς συγκρίνεται το Dia-1.6B με τον ανταγωνισμό;

Το Dia-1.6B ήδη ξεπερνά σε απόδοση τους εμπορικούς κολοσσούς όπως Eleven Labs Studio και Sesame CSM-1B στην εκφραστικότητα, τον συγχρονισμό και τον χειρισμό μη λεκτικών σημάτων. Σε παράλληλες επιδείξεις, οι χρήστες έχουν επαινέσει την ικανότητά του να αποτυπώνει τη φυσική ροή του διαλόγου και τον συναισθηματικό τόνο, κάτι που συχνά απουσιάζει στα παλαιότερα συστήματα TTS.

Ποιά είναι η παγίδα? Το μοντέλο είναι προς το παρόν μόνο στα Αγγλικά και δεν έχει βελτιστοποιηθεί σε συγκεκριμένες φωνές, επομένως θα έχετε διαφορετική φωνή κάθε φορά, εκτός αν χρησιμοποιείτε ηχητική επεξεργασία. Αλλά για ένα έργο ανοιχτού κώδικα, τα αποτελέσματα είναι απλά εκπληκτικά.

Ξεκινώντας: Εκτέλεση Dia-1.6B τοπικά

Είστε έτοιμοι να δοκιμάσετε το Dia-1.6B; Ακολουθεί ένας αναλυτικός οδηγός, είτε θέλετε να το εκτελέσετε τοπικά είτε στο cloud.

Απαιτήσεις υλικούVRAM: Χρειάζεται περίπου 10GB (μια GPU T4 στο Google Colab είναι ιδανική)
OS: Linux, macOS ή Windows
Πύθων: 3.8 +
1

Κλωνοποιήστε το αποθετήριο και ρυθμίστε το περιβάλλον σας

βίαιο χτύπημα

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

Ή, αν χρησιμοποιείτε το Google Colab:

Πύθων

!git clone https://github.com/nari-labs/dia.git
!pip install ./dia
!pip install soundfile

Αλλάξτε σε μια GPU T4 στο Colab για καλύτερα αποτελέσματα.

2

Λήψη βαρών μοντέλου

Τα βάρη των μοντέλων φιλοξενούνται στο Hugging Face. Θα χρειαστείτε ένα διακριτικό πρόσβασης στο Hugging Face (δημιουργήστε ένα στη διεύθυνση Αγκάλιασμα).

Πύθων

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")
3

Δημιουργία ομιλίας από κείμενο

Ακολουθεί ένα δείγμα σεναρίου που παρουσιάζει τον διάλογο και τα μη λεκτικά χαρακτηριστικά:

Πύθων

text = "[S1] This is how Dia sounds. (laughs) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
output = model.generate(text)
sf.write("dia_sample.mp3", output, 44100)  # Save the audio

Μπορείτε να αναπαράγετε τον ήχο χρησιμοποιώντας οποιοδήποτε τυπικό πρόγραμμα αναπαραγωγής ή μέσα από το Jupyter/Colab:

Πύθων

import IPython.display as ipd
ipd.Audio("dia_sample.mp3")
4

Κλωνοποίηση και Προετοιμασία Φωνής

Υποστηρίξεις Dia κλωνοποίηση φωνής με βάση ένα δείγμα ήχου. Ανεβάστε τον ήχο αναφοράς και την απομαγνητοφώνηση στο Hugging Face Space ή χρησιμοποιήστε το παράδειγμα σεναρίου στο example/voice_clone.py από το αποθετήριο.

Επιλογή χωρίς κωδικό: Δοκιμάστε το Dia-1.6B online

Δεν θέλετε να ασχοληθείτε με τον κώδικα; Επισκεφθείτε τον επίσημο χώρο του Hugging Face Space:

Dia-1.6B σε αγκαλιάζοντας πρόσωπο

Απλώς επικολλήστε το σκριπτ σας, προσθέστε μια ηχητική προτροπή αν θέλετε να κλωνοποιήσετε μια φωνή και πατήστε δημιουργία. Είναι τόσο απλό.

Δείγμα Έργου: Δημιουργία ενός Bot Συνομιλίας με το Dia-1.6B

Ακολουθεί ένα γρήγορο παράδειγμα Python για να δημιουργήσετε ένα απλό bot διαλόγου:

Πύθων

import soundfile as sf
from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

conversation = """
[S1] Hello! Welcome to our AI-powered podcast. (laughs)
[S2] Thanks! It's great to be here. (clears throat) So, what's new in AI?
[S1] Oh, loads! Have you heard about Dia-1.6B?
[S2] Of course. It's the new open-source TTS model everyone's raving about.
"""

audio = model.generate(conversation)
sf.write("podcast_intro.mp3", audio, 44100)

Βέλτιστες πρακτικές και συμβουλές από επαγγελματίες

Κλωνοποίηση φωνής: Για σταθερές φωνές, χρησιμοποιήστε τη λειτουργία ηχητικής προτροπής ή ορίστε μια τυχαία επιλογή.
Χρήση ετικετών ηχείων: Να επισημαίνετε πάντα τους ομιλητές ως [S1], [S2]κ.λπ. για διάλογο με πολλές φωνές.
Αξιοποιήστε μη λεκτικά σήματα: Εισαγωγή στοιχείων όπως (laughs) or (sighs) για πιο ρεαλιστική απόδοση.
Κλωνοποίηση φωνής: Για σταθερές φωνές, χρησιμοποιήστε τη λειτουργία ηχητικής προτροπής ή ορίστε μια τυχαία επιλογή.
Υλικό: Για βέλτιστη ταχύτητα, χρησιμοποιήστε μια GPU με τουλάχιστον 10 GB VRAM. Η υποστήριξη CPU θα είναι σύντομα διαθέσιμη.
Ηθική: Μην χρησιμοποιείτε το Dia για κακή χρήση ταυτότητας, deepfakesή παραπλανητικό περιεχόμενο. Είναι ισχυρό - χρησιμοποιήστε το υπεύθυνα.

Κοινότητα και υποστήριξη

Αντιμετώπιση προβλημάτων και συχνές ερωτήσεις

Γιατί η φωνή μου ακούγεται διαφορετική σε κάθε γενιά;

Το Dia-1.6B δεν βελτιστοποιείται σε συγκεκριμένες φωνές από προεπιλογή. Για συνεπή έξοδο, χρησιμοποιήστε τη λειτουργία προετοιμασίας ήχου με ένα δείγμα αναφοράς ή δοκιμάστε να ορίσετε μια σταθερή τυχαία πηγή.

Μπορώ να χρησιμοποιήσω το Dia-1.6B για εμπορικά έργα;

Ναι! Το Dia-1.6B κυκλοφορεί με την άδεια Apache 2.0, επιτρέποντας την ελεύθερη χρήση τόσο για προσωπικούς όσο και για εμπορικούς σκοπούς χωρίς περιορισμούς.

Υποστηρίζει το Dia-1.6B γλώσσες εκτός από τα Αγγλικά;

Προς το παρόν, το Dia-1.6B υποστηρίζει μόνο τη δημιουργία κειμένου σε ομιλία στα αγγλικά. Ενδέχεται να προστεθεί υποστήριξη σε πολλές γλώσσες σε μελλοντικές εκδόσεις σύμφωνα με τον οδικό χάρτη.

Πώς μπορώ να δημιουργήσω διάλογο με πολλούς ομιλητές;

Χρησιμοποιήστε απλές ετικέτες όπως [S1] και [S2] στο σενάριό σας για να ορίσετε διαφορετικούς ομιλητές. Για επιπλέον ομιλητές, συνεχίστε με [S3], [S4], κ.λπ. διατηρώντας σταθερές φωνές χαρακτήρων.

Πώς μπορώ να κλωνοποιήσω μια συγκεκριμένη φωνή με το Dia-1.6B;

Ανεβάστε ένα δείγμα ήχου υψηλής ποιότητας 10-20 δευτερολέπτων στην ενότητα "Ηχητική Προτροπή" μαζί με την ακριβή μεταγραφή του. Το μοντέλο θα αναλύσει και θα αντιστοιχίσει τα χαρακτηριστικά φωνής στην παραγόμενη έξοδο.

Συμπέρασμα: Γιατί έχει σημασία το Dia-1.6B

Dia-1.6B αντιπροσωπεύει την ακριβή ροπή AI σύνθεση ομιλίας πέρασε το όριο από «εντυπωσιακή τεχνολογία» σε «βιομηχανική ανατροπή». Ενώ οι τεχνολογικοί γίγαντες ξόδεψαν εκατομμύρια για να τελειοποιήσουν τους περιφραγμένους κήπους τους, αυτό το μοντέλο που κατασκεύασαν φοιτητές ξαναέγραψε αθόρυβα τους κανόνες. Τι συμβαίνει όταν η ποιότητα φωνής υψηλής ποιότητας γίνεται δωρεάν; Όταν η συναισθηματική απόχρωση δεν κοστίζει πλέον τέλη συνδρομής;

Είστε έτοιμοι να δώσετε στα έργα σας μια πραγματική φωνή;
Κατεβάστε το Dia-1.6B, ενεργοποιήστε τα σενάρια σας και αφήστε το περιεχόμενό σας να μιλήσει από μόνο του. Εάν αντιμετωπίσετε κάποιο πρόβλημα, το Nari Labs η κοινότητα σφύζει από υποστήριξη και ιδέες. Ας κάνουμε AI υγιές ανθρώπινο μοντέλο - ένα μοντέλο ανοιχτού κώδικα τη φορά.

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται *

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει το spam. Μάθετε πώς γίνεται η επεξεργασία των δεδομένων των σχολίων σας.

Γίνε μελος Aimojo Φυλή!

Εγγραφείτε σε 76,200+ μέλη για εμπιστευτικές συμβουλές κάθε εβδομάδα! 
🎁 BONUS: Πάρτε τα 200 δολάρια μας "AI «Εργαλειοθήκη Mastery» ΔΩΡΕΑΝ όταν εγγραφείτε!

Τάσεις AI Εργαλεία
AnythingLLM

Ο Ιδιώτης σας AI Χώρος εργασίας που λειτουργεί οπουδήποτε, με τους δικούς σας όρους Το ολοκληρωμένο RAG ανοιχτού κώδικα και AI πλατφόρμα πρακτόρων για επιχειρήσεις

Αργίλλα

Κατασκευάστε υψηλότερη ποιότητα AI Σύνολα δεδομένων με ανθρώπινη ανατροφοδότηση σε κλίμακα Η πλατφόρμα σχολιασμού δεδομένων ανοιχτού κώδικα για βελτιστοποίηση LLM και RLHF

Πράκτορας Μηδέν

Κατασκευή και λειτουργία αυτόνομης λειτουργίας AI Πράκτορες με τους δικούς σας όρους Το Πλαίσιο Ανοικτού Κώδικα Πράκτορα που σας Δίνει τον Έλεγχο

9Δρομολογητής

Προϋπολογισμός API για την καταπολέμηση της αιμορραγίας — Δρομολόγηση με πιο έξυπνο τρόπο, κώδικας με μεγαλύτερη διάρκεια. Η ανοιχτή πηγή AI proxy που διατηρεί το developmentstack σας σε λειτουργία όλο το εικοσιτετράωρο.

Οποιαδήποτε συνομιλία

Ενοποιήστε κάθε συνομιλία πελατών σε ένα ισχυρό φάκελο εισερχομένων Η ζωντανή συνομιλία όλα σε ένα, AI πράκτορας και πλατφόρμα υποστήριξης που έχει σχεδιαστεί για αναπτυσσόμενες ομάδες.

© Πνευματικά δικαιώματα 2023 - 2026 | Γίνετε AI Pro | Φτιαγμένο με ♥