Data pro AI Nová studie odhaluje, že školení rychle mizí

Data pro AI Studie ukazuje, že školení rychle mizí

Nedávná studie Data Provenance Initiative, výzkumné skupiny pod vedením MIT, odhalila rostoucí krizi v dostupnosti dat používaných k trénování modelů umělé inteligence (AI). Výzkum, který prozkoumal 14,000 XNUMX webových domén zahrnuty ve třech běžně používaných AI trénovací datové sady zjistily, že značná část vysoce kvalitních datových zdrojů nyní omezuje přístup ke svému obsahu.

Studie odhaduje, že v souborech dat C4, RefinedWeb a Dolma přibližně 5 % všech dat a 25 % dat z nejkvalitnějších zdrojů bylo omezeno. Tato omezení jsou primárně implementována prostřednictvím Protokol pro vyloučení robotů, což je dlouhodobá metoda pro vlastníky webových stránek, jak zabránit automatizovaným robotům v procházení jejich stránek pomocí souboru s názvem robots.txt.

Vedoucí autorka Shayne Longpre varuje: „Jsme svědky rapidního poklesu souhlasu s používáním dat na webu, což bude mít důsledky nejen pro…“ AI společnosti, ale i pro výzkumníky, akademiky a nekomerční subjekty.“ Tento trend by mohl významně ovlivnit rozvoj a zlepšování AI modely, které se do značné míry spoléhají na obrovské množství různorodých a vysoce kvalitních dat pro školení.

Nedostatek tréninkových dat se stává kritickým problémem v AI průmysl. Tak jako AI Systémy se stávají sofistikovanějšími a používají se ke stále složitějším úkolům, roste poptávka po bohatých a rozmanitých souborech dat. Nabídka těchto dat však klesá v důsledku různých faktorů, včetně obavy o soukromí, etické úvahy a odmítavý postoj tvůrcům obsahu.

AI Společnosti ignorují webová pravidla, aby krádeže ztratily obsah od vydavatelů

Mnoho vydavatelů a online platforem podniklo kroky k ochraně svých dat před sklízením bez povolení. Někteří mají nastavit paywally nebo změnit jejich podmínky služby omezit použití jejich obsahu pro AI školení. Jiní, jako Reddit a StackOverflow, začali nabíjení AI společnosti o přístup k jejich údajům. Byly také podniknuty právní kroky, přičemž The New York Times žaloval OpenAI a Microsoft za údajné porušení autorských práv v souvislosti s použitím novinových článků v AI školení.

Důsledky tohoto nedostatku dat jsou dalekosáhlé. AI Modely trénované na nedostatečných nebo zkreslených datech mohou mít sníženou přesnost, omezenou zobecnitelnost a neschopnost přizpůsobit se novým situacím. To by mohlo potenciálně zpomalit inovace v oboru a bránit vývoji nových... AI aplikace.

Aby se s těmito výzvami vypořádali, výzkumníci a AI Firmy zkoumají alternativní přístupy. Patří mezi ně techniky aktivního učení, které se zaměřují na výběr nejinformativnějších datových bodů pro školení, a transfer učení, které využívá znalosti z… předtrénované modely zlepšit výkon u nových úkolů s omezenými daty.

Některé společnosti také uzavírají dohody s vydavateli, aby si zajistily trvalý přístup k jejich obsahu. Například, OpenAI, Google a Meta nedávno uzavřely smlouvy se zpravodajskými organizacemi jako The Associated Press and News Corp, abychom zajistili nepřetržitý tok vysoce kvalitních školicích dat.

Vzhledem k tomu, AI Pokud se průmysl potýká s touto vznikající datovou krizí, může být nucen vyvinout efektivnější a odpovědnější způsoby vzdělávání modelů. To by mohlo vést k inovacím ve sběru a využívání dat a dokonce i k zcela novým paradigmatům učení, která jsou méně závislá na masivních datových sadách.

Jedno studovat's zjištění zdůrazňují potřebu vyváženého přístupu k AI rozvoj, který respektuje práva duševního vlastnictví a ochranu soukromí a zároveň podporuje inovace. Vzhledem k tomu, že se prostředí AI Vzhledem k neustálému vývoji vzdělávacích dat bude pro zvládání těchto výzev a zajištění udržitelného růstu klíčová spolupráce mezi technologickými společnostmi, tvůrci obsahu a tvůrci politik. AI Technologií.

https://twitter.com/kevinroose/status/1814320101962957235

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

Tyto stránky používají Akismet k omezení spamu. Přečtěte si, jak jsou zpracovávána data vašich komentářů.

Zapojte se do Aimojo Kmen!

Připojte se k více než 76,200 XNUMX členům a získejte každý týden zasvěcené tipy! 
???? BONUS: Získejte našich 200 dolarůAI „Sada nástrojů pro mistrovství“ ZDARMA při registraci!

Trending AI Tools
netlify

Rychlejší nasazení, chytřejší škálování: Moderní webová platforma pro seriózní stavitele CI/CD s využitím Gitu, globální CDN a bezserverová síť – vše na jednom místě.

Holografická umělá inteligence

Proměňte svůj web v plnohodnotný marketingový nástroj – bez týmu. Generátor reklamního, sociálního a e-mailového obsahu s umělou inteligencí, vytvořený pro zakladatele a marketéry.

Articos

Dodávka s důkazy, ne s pocity – Uživatelský výzkum rychlostí Sprintu Syntetický uživatelský výzkum s využitím umělé inteligence, který poskytuje ověřené poznatky o publiku za 30 minut

Palabra.ai

Prolomte každou jazykovou bariéru v reálném čase – aniž byste ztratili hlas Překladač řeči s umělou inteligencí, určený pro živé události, hovory a streamování

Sentaro

váš AI Agent pro analýzu hrozeb, který zastaví e-mailové útoky dříve, než na ně kdokoli klikne Zabezpečení e-mailů pro Gmail a Outlook s využitím umělé inteligence – žádné změny MX, žádná složitost.

© Copyright 2023 - 2026 | Staňte se AI Pro | Vyrobeno s ♥