
Nedávná studie Data Provenance Initiative, výzkumné skupiny pod vedením MIT, odhalila rostoucí krizi v dostupnosti dat používaných k trénování modelů umělé inteligence (AI). Výzkum, který prozkoumal 14,000 XNUMX webových domén zahrnuty ve třech běžně používaných AI trénovací datové sady zjistily, že značná část vysoce kvalitních datových zdrojů nyní omezuje přístup ke svému obsahu.
Studie odhaduje, že v souborech dat C4, RefinedWeb a Dolma přibližně 5 % všech dat a 25 % dat z nejkvalitnějších zdrojů bylo omezeno. Tato omezení jsou primárně implementována prostřednictvím Protokol pro vyloučení robotů, což je dlouhodobá metoda pro vlastníky webových stránek, jak zabránit automatizovaným robotům v procházení jejich stránek pomocí souboru s názvem robots.txt.
Vedoucí autorka Shayne Longpre varuje: „Jsme svědky rapidního poklesu souhlasu s používáním dat na webu, což bude mít důsledky nejen pro…“ AI společnosti, ale i pro výzkumníky, akademiky a nekomerční subjekty.“ Tento trend by mohl významně ovlivnit rozvoj a zlepšování AI modely, které se do značné míry spoléhají na obrovské množství různorodých a vysoce kvalitních dat pro školení.
Nedostatek tréninkových dat se stává kritickým problémem v AI průmysl. Tak jako AI Systémy se stávají sofistikovanějšími a používají se ke stále složitějším úkolům, roste poptávka po bohatých a rozmanitých souborech dat. Nabídka těchto dat však klesá v důsledku různých faktorů, včetně obavy o soukromí, etické úvahy a odmítavý postoj tvůrcům obsahu.

Mnoho vydavatelů a online platforem podniklo kroky k ochraně svých dat před sklízením bez povolení. Někteří mají nastavit paywally nebo změnit jejich podmínky služby omezit použití jejich obsahu pro AI školení. Jiní, jako Reddit a StackOverflow, začali nabíjení AI společnosti o přístup k jejich údajům. Byly také podniknuty právní kroky, přičemž The New York Times žaloval OpenAI a Microsoft za údajné porušení autorských práv v souvislosti s použitím novinových článků v AI školení.
Důsledky tohoto nedostatku dat jsou dalekosáhlé. AI Modely trénované na nedostatečných nebo zkreslených datech mohou mít sníženou přesnost, omezenou zobecnitelnost a neschopnost přizpůsobit se novým situacím. To by mohlo potenciálně zpomalit inovace v oboru a bránit vývoji nových... AI aplikace.
Aby se s těmito výzvami vypořádali, výzkumníci a AI Firmy zkoumají alternativní přístupy. Patří mezi ně techniky aktivního učení, které se zaměřují na výběr nejinformativnějších datových bodů pro školení, a transfer učení, které využívá znalosti z… předtrénované modely zlepšit výkon u nových úkolů s omezenými daty.
Některé společnosti také uzavírají dohody s vydavateli, aby si zajistily trvalý přístup k jejich obsahu. Například, OpenAI, Google a Meta nedávno uzavřely smlouvy se zpravodajskými organizacemi jako The Associated Press and News Corp, abychom zajistili nepřetržitý tok vysoce kvalitních školicích dat.
Vzhledem k tomu, AI Pokud se průmysl potýká s touto vznikající datovou krizí, může být nucen vyvinout efektivnější a odpovědnější způsoby vzdělávání modelů. To by mohlo vést k inovacím ve sběru a využívání dat a dokonce i k zcela novým paradigmatům učení, která jsou méně závislá na masivních datových sadách.
Jedno studovat's zjištění zdůrazňují potřebu vyváženého přístupu k AI rozvoj, který respektuje práva duševního vlastnictví a ochranu soukromí a zároveň podporuje inovace. Vzhledem k tomu, že se prostředí AI Vzhledem k neustálému vývoji vzdělávacích dat bude pro zvládání těchto výzev a zajištění udržitelného růstu klíčová spolupráce mezi technologickými společnostmi, tvůrci obsahu a tvůrci politik. AI Technologií.


