
Μια πρόσφατη μελέτη από την Data Provenance Initiative, μια ερευνητική ομάδα υπό την ηγεσία του MIT, αποκάλυψε μια αυξανόμενη κρίση στη διαθεσιμότητα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης (AI). Η έρευνα, η οποία εξέτασε 14,000 τομείς ιστού περιλαμβάνονται σε τρία συνήθως χρησιμοποιούμενα AI σύνολα δεδομένων εκπαίδευσης, διαπίστωσαν ότι ένα σημαντικό μέρος των πηγών δεδομένων υψηλής ποιότητας περιορίζουν πλέον την πρόσβαση στο περιεχόμενό τους.
Η μελέτη εκτιμά ότι στα σύνολα δεδομένων C4, RefinedWeb και Dolma, περίπου Το 5% όλων των δεδομένων και το 25% των δεδομένων από πηγές υψηλότερης ποιότητας έχουν περιοριστεί. Αυτοί οι περιορισμοί εφαρμόζονται κυρίως μέσω του Πρωτόκολλο εξαίρεσης ρομπότ, μια μακροχρόνια μέθοδος για τους ιδιοκτήτες ιστότοπων ώστε να εμποδίζουν τα αυτοματοποιημένα ρομπότ να ανιχνεύουν τις σελίδες τους χρησιμοποιώντας ένα αρχείο που ονομάζεται robots.txt.
Η επικεφαλής συγγραφέας Shayne Longpre προειδοποιεί: «Βλέπουμε μια ραγδαία μείωση της συναίνεσης για χρήση δεδομένων σε ολόκληρο τον ιστό, η οποία θα έχει επιπτώσεις όχι μόνο για AI εταιρείες, αλλά για ερευνητές, ακαδημαϊκούς και μη εμπορικές οντότητες.» Αυτή η τάση θα μπορούσε να επηρεάσει σημαντικά την ανάπτυξη και τη βελτίωση των AI μοντέλα, τα οποία βασίζονται σε μεγάλο βαθμό σε τεράστιες ποσότητες διαφορετικών, υψηλής ποιότητας δεδομένων για εκπαίδευση.
Η έλλειψη δεδομένων εκπαίδευσης καθίσταται κρίσιμο ζήτημα AI βιομηχανία. Ως AI Καθώς τα συστήματα γίνονται πιο εξελιγμένα και εφαρμόζονται σε ολοένα και πιο σύνθετες εργασίες, η ζήτηση για πλούσια, ποικίλα σύνολα δεδομένων αυξάνεται. Ωστόσο, η προσφορά τέτοιων δεδομένων μειώνεται λόγω διαφόρων παραγόντων, όπως ανησυχίες για το απόρρητο, ηθικά ζητήματα και απώθηση από δημιουργούς περιεχομένου.

Πολλοί εκδότες και διαδικτυακές πλατφόρμες έχουν λάβει μέτρα για να προστατεύσουν τα δεδομένα τους από τη συλλογή χωρίς άδεια. Μερικοί έχουν να δημιουργήσουν paywalls ή να τροποποιήσουν τους όρους παροχής υπηρεσιών τους να περιορίσουν τη χρήση του περιεχομένου τους για AI εκπαίδευση. Άλλοι, όπως το Reddit και το StackOverflow, έχουν ξεκινήσει φόρτισης AI εταιρείες για πρόσβαση στα δεδομένα τους. Έχουν επίσης ληφθεί νομικές ενέργειες, με τους New York Times να μηνύουν την OpenAI και τη Microsoft για φερόμενη παραβίαση πνευματικών δικαιωμάτων σχετικά με τη χρήση άρθρων ειδήσεων σε AI εκπαίδευση.
Οι επιπτώσεις αυτής της έλλειψης δεδομένων είναι εκτεταμένες. AI Τα μοντέλα που έχουν εκπαιδευτεί με βάση ανεπαρκή ή μεροληπτικά δεδομένα ενδέχεται να παρουσιάσουν μειωμένη ακρίβεια, περιορισμένη δυνατότητα γενίκευσης και αδυναμία προσαρμογής σε νέες καταστάσεις. Αυτό θα μπορούσε ενδεχομένως να επιβραδύνει την καινοτομία στον τομέα και να εμποδίσει την ανάπτυξη νέων AI εφαρμογές.
Για την αντιμετώπιση αυτών των προκλήσεων, οι ερευνητές και AI Οι εταιρείες διερευνούν εναλλακτικές προσεγγίσεις. Αυτές περιλαμβάνουν τεχνικές ενεργητικής μάθησης, οι οποίες επικεντρώνονται στην επιλογή των πιο ενημερωτικών σημείων δεδομένων για την εκπαίδευση, και μεταφορά μάθησης, η οποία αξιοποιεί τη γνώση από προ-εκπαιδευμένα μοντέλα για τη βελτίωση της απόδοσης σε νέες εργασίες με περιορισμένα δεδομένα.
Ορισμένες εταιρείες συνάπτουν επίσης συμφωνίες με εκδότες για να εξασφαλίσουν συνεχή πρόσβαση στο περιεχόμενό τους. Για παράδειγμα, Οι OpenAI, Google και Meta συνήψαν πρόσφατα συμφωνίες με ειδησεογραφικούς οργανισμούς όπως το Associated Press και το News Corp για να διασφαλιστεί η συνεχής ροή δεδομένων εκπαίδευσης υψηλής ποιότητας.
Καθώς η AI Καθώς η βιομηχανία αντιμετωπίζει αυτήν την αναδυόμενη κρίση δεδομένων, ενδέχεται να αναγκαστεί να αναπτύξει πιο αποτελεσματικούς και υπεύθυνους τρόπους μοντέλων εκπαίδευσης. Αυτό θα μπορούσε να οδηγήσει σε καινοτομίες στη συλλογή και την αξιοποίηση δεδομένων, ακόμη και σε εντελώς νέα παραδείγματα μάθησης που εξαρτώνται λιγότερο από τεράστια σύνολα δεδομένων.
The μελέτη's ευρήματα υπογραμμίζουν την ανάγκη για μια ισορροπημένη προσέγγιση AI ανάπτυξη που σέβεται τα δικαιώματα πνευματικής ιδιοκτησίας και τις ανησυχίες για την προστασία της ιδιωτικής ζωής, ενώ παράλληλα ενθαρρύνει την καινοτομία. Καθώς το τοπίο AI Καθώς τα δεδομένα εκπαίδευσης συνεχίζουν να εξελίσσονται, η συνεργασία μεταξύ τεχνολογικών εταιρειών, δημιουργών περιεχομένου και υπευθύνων χάραξης πολιτικής θα είναι κρίσιμη για την αντιμετώπιση αυτών των προκλήσεων και τη διασφάλιση της βιώσιμης ανάπτυξης των AI τεχνολογίες.

