
Eine aktuelle Studie der Data Provenance Initiative, einer vom MIT geleiteten Forschungsgruppe, hat eine wachsende Krise bei der Verfügbarkeit von Daten offenbart, die zum Trainieren von Modellen der künstlichen Intelligenz (KI) verwendet werden. Die Forschung, die 14,000 Webdomänen untersucht in drei häufig verwendeten AI Trainingsdatensätze, stellten fest, dass bei einem erheblichen Teil hochwertiger Datenquellen der Zugriff auf ihre Inhalte mittlerweile eingeschränkt ist.
Die Studie schätzt, dass in den Datensätzen C4, RefinedWeb und Dolma ungefähr 5 % aller Daten und 25 % der Daten aus den qualitativ hochwertigsten Quellen wurden eingeschränkt. Diese Beschränkungen werden in erster Linie umgesetzt durch die Protokoll zum Ausschluss von Robotern, eine seit langem bestehende Methode für Websitebesitzer, um mithilfe einer Datei namens robots.txt das Crawlen ihrer Seiten durch automatisierte Bots zu verhindern.
Der Hauptautor Shayne Longpre warnt: „Wir sehen einen rapiden Rückgang der Zustimmung zur Nutzung von Daten im gesamten Web, der nicht nur Auswirkungen haben wird auf AI Unternehmen, sondern für Forscher, Akademiker und nichtkommerzielle Einrichtungen.“ Dieser Trend könnte die Entwicklung und Verbesserung von AI für, die für ihr Training in hohem Maße auf große Mengen unterschiedlicher und qualitativ hochwertiger Daten angewiesen sind.
Der Mangel an Trainingsdaten wird zu einem kritischen Problem in der AI Industrie. Als AI Systeme werden immer ausgefeilter und für immer komplexere Aufgaben eingesetzt, die Nachfrage nach umfangreichen, vielfältigen Datensätzen steigt. Das Angebot an solchen Daten schrumpft jedoch aufgrund verschiedener Faktoren, darunter Datenschutzbedenken, ethische Überlegungen und Widerstand von Inhaltsentwickler.

Viele Verlage und Online-Plattformen haben Maßnahmen ergriffen, um ihre Daten vor unerlaubter Erfassung zu schützen. Einige haben Paywalls eingerichtet oder ihre Nutzungsbedingungen geändert haben die Nutzung ihrer Inhalte einzuschränken für AI Training. Andere, wie Reddit und StackOverflow, haben begonnen aufladen AI Unternehmen für den Zugriff auf ihre Daten. Auch rechtliche Schritte wurden eingeleitet, die New York Times verklagte OpenAI und Microsoft wegen angeblicher Urheberrechtsverletzung im Zusammenhang mit der Verwendung von Nachrichtenartikeln in AI Ausbildung.
Die Folgen dieses Datenmangels sind weitreichend. AI Modelle, die mit unzureichenden oder verzerrten Daten trainiert wurden, weisen möglicherweise eine geringere Genauigkeit, eingeschränkte Generalisierbarkeit und eine mangelnde Anpassungsfähigkeit an neue Situationen auf. Dies könnte möglicherweise die Innovation in diesem Bereich verlangsamen und die Entwicklung neuer AI um weitere Anwendungsbeispiele zu finden.
Um diese Herausforderungen zu bewältigen, haben Forscher und AI Unternehmen erforschen alternative Ansätze. Dazu gehören aktive Lerntechniken, die sich auf die Auswahl der aussagekräftigsten Datenpunkte für das Training konzentrieren, und Transferlernen, das Wissen aus vorgefertigte Modelle um die Leistung bei neuen Aufgaben mit begrenzten Daten zu verbessern.
Einige Unternehmen schließen auch Vereinbarungen mit Verlagen ab, um sich den dauerhaften Zugriff auf ihre Inhalte zu sichern. Zum Beispiel OpenAI, Google und Meta haben kürzlich Vereinbarungen mit Nachrichtenorganisationen geschlossen wie The Associated Press und News Corp, um einen kontinuierlichen Fluss qualitativ hochwertiger Trainingsdaten zu gewährleisten.
Da der AI Die Branche muss sich mit der sich abzeichnenden Datenkrise auseinandersetzen und muss möglicherweise effizientere und verantwortungsvollere Methoden zur Modellschulung entwickeln. Dies könnte zu Innovationen bei der Datenerfassung und -nutzung und sogar zu völlig neuen Lernparadigmen führen, die weniger von riesigen Datensätzen abhängig sind.
Das Studie's Befund unterstreichen die Notwendigkeit eines ausgewogenen Ansatzes für AI Entwicklung, die geistige Eigentumsrechte und Datenschutzbedenken respektiert und gleichzeitig Innovationen fördert. Da die Landschaft der AI Trainingsdaten entwickeln sich weiter. Die Zusammenarbeit zwischen Technologieunternehmen, Inhaltserstellern und politischen Entscheidungsträgern wird entscheidend sein, um diese Herausforderungen zu meistern und das nachhaltige Wachstum von AI Technologien.

