
麻省理工学院 (MIT) 牵头的研究小组“数据来源倡议” (Data Provenance Initiative) 最近的一项研究表明,用于训练人工智能 (AI) 模型的数据可用性危机日益严重。这项研究 检查了 14,000 个网络域名 包括三个常用 AI 训练数据集,发现相当一部分高质量数据源现在正在限制对其内容的访问。
该研究估计,在 C4、RefinedWeb 和 Dolma 数据集中,大约 所有数据的 5% 和最优质来源的 25% 的数据受到限制.这些限制主要通过 机器人排除协议这是网站所有者长期以来使用的一种方法,即使用 robots.txt 文件来阻止自动机器人抓取他们的网页。
主要作者 Shayne Longpre 警告说,“我们看到网络上同意使用数据的人数正在迅速减少,这不仅会对 AI 公司,也适用于研究人员、学者和非商业实体。”这一趋势可能会显著影响 AI 模型,其训练严重依赖大量多样化、高质量的数据。
训练数据的稀缺正在成为 AI 行业。作为 AI 随着系统变得越来越复杂,应用于的任务也越来越复杂,对丰富多样的数据集的需求也随之增长。然而,由于各种因素,此类数据的供应正在减少,包括 隐私问题、道德考量以及 内容创作者.

许多出版商和在线平台已采取措施保护其数据不被未经许可获取。有些出版商和在线平台已经采取措施保护其数据不被未经许可获取。 设置付费墙或修改服务条款 限制其内容的使用 AI 培训。Reddit 和 StackOverflow 等其他平台也开始 充电 AI 公司 访问他们的数据。此外,还采取了法律行动,《纽约时报》起诉了 OpenAI 以及微软因使用新闻文章涉嫌侵犯版权而 AI 培训。
数据稀缺的影响是深远的。 AI 使用不充分或有偏差的数据训练的模型可能会降低准确性,限制通用性,并且无法适应新情况。这可能会减缓该领域的创新,并阻碍新方法的开发。 AI 领域广泛应用,提供了卓越的解决方案。
为了应对这些挑战,研究人员和 AI 各公司正在探索替代方法。这些方法包括主动学习技术(专注于选择最具信息量的数据点进行训练)和迁移学习(利用来自 预训练模型 提高使用有限数据完成新任务的性能。
一些公司还与出版商达成协议,以确保持续获得其内容。例如, OpenAI、谷歌和 Meta 最近与新闻机构达成了协议 美联社和新闻集团等机构,以确保高质量训练数据的持续流动。
作为 AI 行业正在努力应对这场新兴的数据危机,这可能会迫使其开发更高效、更负责任的模型训练方法。这可能会带来数据收集和利用方面的创新,甚至带来更少依赖海量数据集的全新学习范式。
此 我们先研究's 发现 强调需要采取平衡的方法来 AI 尊重知识产权和隐私问题,同时仍然促进创新的发展。随着 AI 随着训练数据的不断发展,科技公司、内容创作者和政策制定者之间的合作对于应对这些挑战和确保人工智能的可持续增长至关重要。 AI 技术。

