Δεδομένα για AI Νέα μελέτη αποκαλύπτει ότι η εκπαίδευση εξαφανίζεται γρήγορα

Δεδομένα για AI Η εκπαίδευση εξαφανίζεται γρήγορα, δείχνει μελέτη

Μια πρόσφατη μελέτη από την Data Provenance Initiative, μια ερευνητική ομάδα υπό την ηγεσία του MIT, αποκάλυψε μια αυξανόμενη κρίση στη διαθεσιμότητα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης (AI). Η έρευνα, η οποία εξέτασε 14,000 τομείς ιστού περιλαμβάνονται σε τρία συνήθως χρησιμοποιούμενα AI σύνολα δεδομένων εκπαίδευσης, διαπίστωσαν ότι ένα σημαντικό μέρος των πηγών δεδομένων υψηλής ποιότητας περιορίζουν πλέον την πρόσβαση στο περιεχόμενό τους.

Η μελέτη εκτιμά ότι στα σύνολα δεδομένων C4, RefinedWeb και Dolma, περίπου Το 5% όλων των δεδομένων και το 25% των δεδομένων από πηγές υψηλότερης ποιότητας έχουν περιοριστεί. Αυτοί οι περιορισμοί εφαρμόζονται κυρίως μέσω του Πρωτόκολλο εξαίρεσης ρομπότ, μια μακροχρόνια μέθοδος για τους ιδιοκτήτες ιστότοπων ώστε να εμποδίζουν τα αυτοματοποιημένα ρομπότ να ανιχνεύουν τις σελίδες τους χρησιμοποιώντας ένα αρχείο που ονομάζεται robots.txt.

Η επικεφαλής συγγραφέας Shayne Longpre προειδοποιεί: «Βλέπουμε μια ραγδαία μείωση της συναίνεσης για χρήση δεδομένων σε ολόκληρο τον ιστό, η οποία θα έχει επιπτώσεις όχι μόνο για AI εταιρείες, αλλά για ερευνητές, ακαδημαϊκούς και μη εμπορικές οντότητες.» Αυτή η τάση θα μπορούσε να επηρεάσει σημαντικά την ανάπτυξη και τη βελτίωση των AI μοντέλα, τα οποία βασίζονται σε μεγάλο βαθμό σε τεράστιες ποσότητες διαφορετικών, υψηλής ποιότητας δεδομένων για εκπαίδευση.

Η έλλειψη δεδομένων εκπαίδευσης καθίσταται κρίσιμο ζήτημα AI βιομηχανία. Ως AI Καθώς τα συστήματα γίνονται πιο εξελιγμένα και εφαρμόζονται σε ολοένα και πιο σύνθετες εργασίες, η ζήτηση για πλούσια, ποικίλα σύνολα δεδομένων αυξάνεται. Ωστόσο, η προσφορά τέτοιων δεδομένων μειώνεται λόγω διαφόρων παραγόντων, όπως ανησυχίες για το απόρρητο, ηθικά ζητήματα και απώθηση από δημιουργούς περιεχομένου.

AI Οι εταιρείες αγνοούν τους κανόνες του διαδικτύου για να αποσπούν περιεχόμενο εκδοτών

Πολλοί εκδότες και διαδικτυακές πλατφόρμες έχουν λάβει μέτρα για να προστατεύσουν τα δεδομένα τους από τη συλλογή χωρίς άδεια. Μερικοί έχουν να δημιουργήσουν paywalls ή να τροποποιήσουν τους όρους παροχής υπηρεσιών τους να περιορίσουν τη χρήση του περιεχομένου τους για AI εκπαίδευση. Άλλοι, όπως το Reddit και το StackOverflow, έχουν ξεκινήσει φόρτισης AI εταιρείες για πρόσβαση στα δεδομένα τους. Έχουν επίσης ληφθεί νομικές ενέργειες, με τους New York Times να μηνύουν την OpenAI και τη Microsoft για φερόμενη παραβίαση πνευματικών δικαιωμάτων σχετικά με τη χρήση άρθρων ειδήσεων σε AI εκπαίδευση.

Οι επιπτώσεις αυτής της έλλειψης δεδομένων είναι εκτεταμένες. AI Τα μοντέλα που έχουν εκπαιδευτεί με βάση ανεπαρκή ή μεροληπτικά δεδομένα ενδέχεται να παρουσιάσουν μειωμένη ακρίβεια, περιορισμένη δυνατότητα γενίκευσης και αδυναμία προσαρμογής σε νέες καταστάσεις. Αυτό θα μπορούσε ενδεχομένως να επιβραδύνει την καινοτομία στον τομέα και να εμποδίσει την ανάπτυξη νέων AI εφαρμογές.

Για την αντιμετώπιση αυτών των προκλήσεων, οι ερευνητές και AI Οι εταιρείες διερευνούν εναλλακτικές προσεγγίσεις. Αυτές περιλαμβάνουν τεχνικές ενεργητικής μάθησης, οι οποίες επικεντρώνονται στην επιλογή των πιο ενημερωτικών σημείων δεδομένων για την εκπαίδευση, και μεταφορά μάθησης, η οποία αξιοποιεί τη γνώση από προ-εκπαιδευμένα μοντέλα για τη βελτίωση της απόδοσης σε νέες εργασίες με περιορισμένα δεδομένα.

Ορισμένες εταιρείες συνάπτουν επίσης συμφωνίες με εκδότες για να εξασφαλίσουν συνεχή πρόσβαση στο περιεχόμενό τους. Για παράδειγμα, Οι OpenAI, Google και Meta συνήψαν πρόσφατα συμφωνίες με ειδησεογραφικούς οργανισμούς όπως το Associated Press και το News Corp για να διασφαλιστεί η συνεχής ροή δεδομένων εκπαίδευσης υψηλής ποιότητας.

Καθώς η AI Καθώς η βιομηχανία αντιμετωπίζει αυτήν την αναδυόμενη κρίση δεδομένων, ενδέχεται να αναγκαστεί να αναπτύξει πιο αποτελεσματικούς και υπεύθυνους τρόπους μοντέλων εκπαίδευσης. Αυτό θα μπορούσε να οδηγήσει σε καινοτομίες στη συλλογή και την αξιοποίηση δεδομένων, ακόμη και σε εντελώς νέα παραδείγματα μάθησης που εξαρτώνται λιγότερο από τεράστια σύνολα δεδομένων.

The μελέτη's ευρήματα υπογραμμίζουν την ανάγκη για μια ισορροπημένη προσέγγιση AI ανάπτυξη που σέβεται τα δικαιώματα πνευματικής ιδιοκτησίας και τις ανησυχίες για την προστασία της ιδιωτικής ζωής, ενώ παράλληλα ενθαρρύνει την καινοτομία. Καθώς το τοπίο AI Καθώς τα δεδομένα εκπαίδευσης συνεχίζουν να εξελίσσονται, η συνεργασία μεταξύ τεχνολογικών εταιρειών, δημιουργών περιεχομένου και υπευθύνων χάραξης πολιτικής θα είναι κρίσιμη για την αντιμετώπιση αυτών των προκλήσεων και τη διασφάλιση της βιώσιμης ανάπτυξης των AI τεχνολογίες.

https://twitter.com/kevinroose/status/1814320101962957235

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται *

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει το spam. Μάθετε πώς γίνεται η επεξεργασία των δεδομένων των σχολίων σας.

Γίνε μελος Aimojo Φυλή!

Εγγραφείτε σε 76,200+ μέλη για εμπιστευτικές συμβουλές κάθε εβδομάδα! 
🎁 BONUS: Πάρτε τα 200 δολάρια μας "AI «Εργαλειοθήκη Mastery» ΔΩΡΕΑΝ όταν εγγραφείτε!

Τάσεις AI Εργαλεία
Λεζάντες AI

Μετατρέψτε το ακατέργαστο υλικό σε βίντεο ποιότητας στούντιο σε λίγα λεπτά Το all-in-one AI στούντιο δημιουργίας βίντεο για σύγχρονους δημιουργούς

Texta AI

Παρακολούθηση AI Απαντήσεις, Παρακολούθηση Αναφορών και Ενίσχυση της Ορατότητας της Επωνυμίας Το ουσιαστικό AI Πλατφόρμα προβολής για σύγχρονες ομάδες μάρκετινγκ

Bramework

Μεταμορφώστε τη στρατηγική περιεχομένου σας με blogging SEO με τεχνητή νοημοσύνη Η ολοκληρωμένη πλατφόρμα για επιχειρήσεις και δημιουργούς

Clearscope

Βελτιστοποίηση περιεχομένου με τεχνητή νοημοσύνη που διασφαλίζει την ορατότητά σας στις αναζητήσεις για το μέλλον Κυριαρχήστε στην Google και AI αναζήτηση με σημασιολογική ακρίβεια

ChatJuanitor 

Γυρίστε το AI εμμονή με το παιχνίδι ρόλων σε πραγματικές ανταμοιβές USDT ενώ συνομιλείτε με τον πιο συνεπή χαρακτήρα AI στο δίκτυο. Επιστάτης AI Μόλις λάμψα. ​​Γνωρίστε τον θυρωρό του Chat.

© Πνευματικά δικαιώματα 2023 - 2026 | Γίνετε AI Pro | Φτιαγμένο με ♥