
由麻省理工學院 (MIT) 領導的研究小組「資料溯源倡議」 (Data Provenance Initiative) 最近的一項研究表明,用於訓練人工智慧 (AI) 模型的資料可用性危機日益嚴重。這項研究 檢查了 14,000 個網路域名 包括三個常用 AI 訓練資料集,發現相當一部分高品質資料來源現在正在限制對其內容的存取。
該研究估計,在 C4、RefinedWeb 和 Dolma 資料集中,約 所有數據的 5% 和最高品質來源的 25% 的數據受到限制。這些限制主要透過 機器人排除協議,這是網站所有者長期以來使用的一種方法,使用名為 robots.txt 的檔案來防止自動機器人抓取他們的頁面。
主要作者 Shayne Longpre 警告說,「我們看到網路上同意使用數據的人數正在迅速減少,這不僅會對 AI 公司,而是針對研究人員、學者和非商業實體。 」這一趨勢可能會顯著影響 AI 模型,其訓練嚴重依賴大量多樣化、高品質的數據。
訓練資料的稀缺正在成為 AI 行業。作為 AI 隨著系統變得越來越複雜,應用於的任務也越來越複雜,對豐富多樣的資料集的需求也隨之成長。然而,由於各種因素,此類數據的供應正在減少,包括 隱私問題、道德考量以及來自 內容創作者.

許多出版商和線上平台已採取措施保護其資料不被未經許可取得。一些出版商和線上平台已採取措施保護其資料不被未經許可取得。 設定付費牆或修改服務條款 限制其內容的使用 AI 培訓。 Reddit 和 StackOverflow 等其他平台也已經開始 充電 AI 公司 存取他們的數據。此外,還採取了法律行動,《紐約時報》起訴了 OpenAI 以及微軟因使用新聞文章涉嫌侵犯版權而 AI 培訓。
數據稀缺的影響是深遠的。 AI 使用不充分或偏差的資料訓練的模型可能會降低準確性,限制通用性,並且無法適應新情況。這可能會減緩該領域的創新,並阻礙新方法的開發。 AI 應用程序。
為了應對這些挑戰,研究人員和 AI 各公司正在探索其他方法。這些方法包括主動學習技術(專注於選擇最具資訊量的資料點進行訓練)和遷移學習(利用來自 預訓練模型 提高在有限資料下完成新任務的效能。
一些公司還與出版商達成協議,以確保持續存取其內容。例如, OpenAI、谷歌和 Meta 最近與新聞機構達成了協議 美聯社和新聞集團等機構確保高品質培訓數據的持續流動。
作為 AI 產業正在努力應對這場新興的資料危機,這可能會迫使其開發更有效率、更負責任的模型訓練方法。這可能會帶來資料收集和利用的創新,甚至帶來更少依賴海量資料集的全新學習範式。
这 研究's 發現 強調需要採取平衡的方法來 AI 尊重智慧財產權和隱私問題,同時仍促進創新的發展。隨著 AI 隨著訓練資料的不斷發展,科技公司、內容創作者和政策制定者之間的合作對於應對這些挑戰和確保人工智慧的可持續成長至關重要。 AI 技術。

