數據 AI 最新研究顯示,訓練正在迅速消失

數據 AI 研究表明,培訓正在迅速消失

由麻省理工學院 (MIT) 領導的研究小組「資料溯源倡議」 (Data Provenance Initiative) 最近的一項研究表明,用於訓練人工智慧 (AI) 模型的資料可用性危機日益嚴重。這項研究 檢查了 14,000 個網路域名 包括三個常用 AI 訓練資料集,發現相當一部分高品質資料來源現在正在限制對其內容的存取。

該研究估計,在 C4、RefinedWeb 和 Dolma 資料集中,約 所有數據的 5% 和最高品質來源的 25% 的數據受到限制。這些限制主要透過 機器人排除協議,這是網站所有者長期以來使用的一種方法,使用名為 robots.txt 的檔案來防止自動機器人抓取他們的頁面。

主要作者 Shayne Longpre 警告說,「我們看到網路上同意使用數據的人數正在迅速減少,這不僅會對 AI 公司,而是針對研究人員、學者和非商業實體。 」這一趨勢可能會顯著影響 AI 模型,其訓練嚴重依賴大量多樣化、高品質的數據。

訓練資料的稀缺正在成為 AI 行業。作為 AI 隨著系統變得越來越複雜,應用於的任務也越來越複雜,對豐富多樣的資料集的需求也隨之成長。然而,由於各種因素,此類數據的供應正在減少,包括 隱私問題、道德考量以及來自 內容創作者.

AI 公司無視網路規則,抓取出版商內容

許多出版商和線上平台已採取措施保護其資料不被未經許可取得。一些出版商和線上平台已採取措施保護其資料不被未經許可取得。 設定付費牆或修改服務條款 限制其內容的使用 AI 培訓。 Reddit 和 StackOverflow 等其他平台也已經開始 充電 AI 公司 存取他們的數據。此外,還採取了法律行動,《紐約時報》起訴了 OpenAI 以及微軟因使用新聞文章涉嫌侵犯版權而 AI 培訓。

數據稀缺的影響是深遠的。 AI 使用不充分或偏差的資料訓練的模型可能會降低準確性,限制通用性,並且無法適應新情況。這可能會減緩該領域的創新,並阻礙新方法的開發。 AI 應用程序。

為了應對這些挑戰,研究人員和 AI 各公司正在探索其他方法。這些方法包括主動學習技術(專注於選擇最具資訊量的資料點進行訓練)和遷移學習(利用來自 預訓練模型 提高在有限資料下完成新任務的效能。

一些公司還與出版商達成協議,以確保持續存取其內容。例如, OpenAI、谷歌和 Meta 最近與新聞機構達成了協議 美聯社和新聞集團等機構確保高品質培訓數據的持續流動。

作為 AI 產業正在努力應對這場新興的資料危機,這可能會迫使其開發更有效率、更負責任的模型訓練方法。這可能會帶來資料收集和利用的創新,甚至帶來更少依賴海量資料集的全新學習範式。

研究's 發現 強調需要採取平衡的方法來 AI 尊重智慧財產權和隱私問題,同時仍促進創新的發展。隨著 AI 隨著訓練資料的不斷發展,科技公司、內容創作者和政策制定者之間的合作對於應對這些挑戰和確保人工智慧的可持續成長至關重要。 AI 技術。

https://twitter.com/kevinroose/status/1814320101962957235

發表評論

您的電子郵件地址將不會被發表。 必填欄位已標記 *

本網站使用Akismet來減少垃圾郵件。 了解您的評論資料是如何處理的。

加入 Aimojo 部落!

每週加入 76,200 多名會員獲取內部提示! 
🎁 **附送可重複使用的潔面墊 獲得我們的 200 美元“AI 註冊即可免費獲得「精通工具包」!

推薦 AI 工具
字幕人工智慧

幾分鐘內即可將原始素材轉換成工作室品質的視頻 一機多用 AI 面向現代創作者的影片創作工作室

文字人工智慧

監控器 AI 回答問題、追蹤提及、提升品牌知名度 重要的 AI 面向現代行銷團隊的視覺化平台

框架

利用人工智慧驅動的SEO部落格革新您的內容策略 企業與創作者的一體化平台

透明鏡

利用人工智慧進行內容優化,確保您的搜尋可見度面向未來 主導谷歌 AI 語意精確搜尋

ChatJanitor 

轉動你的 AI 將角色扮演的痴迷轉化為真實的USDT獎勵,同時與最穩定的角色聊天 AI 在網上。 看門人 AI 煥然一新!認識聊天管理員吧!

© 2023 - 2026 版權所有 | 成為 AI 專業版 | 用心打造