
MIT-i juhitud uurimisrühma Data Provenance Initiative'i hiljutine uuring näitas, et tehisintellekti (AI) mudelite koolitamiseks kasutatavate andmete kättesaadavus kasvab. Uuring, mis uuris 14,000 XNUMX veebidomeeni kuulub kolme üldkasutatava hulka AI koolitusandmekogumeid, leiti, et märkimisväärne osa kvaliteetsetest andmeallikatest piirab nüüd juurdepääsu oma sisule.
Uuringu hinnangul on andmekogumites C4, RefinedWeb ja Dolma ligikaudu Piiratud on 5% kõigist andmetest ja 25% kõrgeima kvaliteediga allikatest pärit andmetest. Neid piiranguid rakendatakse peamiselt läbi Robotite välistamise protokoll, veebisaitide omanike kauaaegne meetod, mis takistab automatiseeritud robotitel nende lehtedel roomamist, kasutades faili nimega robots.txt.
Juhtiv autor Shayne Longpre hoiatab: „Me näeme veebis andmete kasutamiseks nõusoleku andmise kiiret vähenemist, millel on tagajärjed mitte ainult... AI ettevõtetele, aga ka teadlastele, akadeemikutele ja mitteärilistele üksustele.“ See suundumus võib oluliselt mõjutada arengut ja täiustamist AI mudelid, mis sõltuvad suurel hulgal mitmekesistest kvaliteetsetest andmetest treenimiseks.
Treeningandmete nappus on muutumas kriitiliseks probleemiks AI tööstusele. Nagu AI süsteemid muutuvad keerukamaks ja neid rakendatakse üha keerukamate ülesannete lahendamiseks, kasvab nõudlus rikkalike ja mitmekesiste andmekogumite järele. Selliste andmete pakkumine aga väheneb mitmete tegurite tõttu, sealhulgas privaatsusprobleemid, eetilised kaalutlused ja tagasilöögid sisu loojad.

Paljud kirjastajad ja veebiplatvormid on astunud samme, et kaitsta oma andmeid loata kogumise eest. Mõnel on tasumüürid üles seadnud või nende teenusetingimusi muutnud piirata nende sisu kasutamist AI koolitus. Teised, näiteks Reddit ja StackOverflow, on alustanud laadimise AI ettevõtted oma andmetele juurdepääsu saamiseks. Samuti on astutud õiguslikke samme, näiteks The New York Times on Openi kohtusse kaevanud.AI ja Microsofti väidetava autoriõiguste rikkumise eest, mis on seotud uudisteartiklite kasutamisega AI koolitust.
Selle andmenappuse tagajärjed on kaugeleulatuvad. AI Ebapiisavate või kallutatud andmete põhjal treenitud mudelite täpsus võib olla vähenenud, üldistatavus piiratud ja nad ei pruugi uute olukordadega kohaneda. See võib potentsiaalselt aeglustada innovatsiooni selles valdkonnas ja takistada uute tehnoloogiate väljatöötamist. AI rakendusi.
Nende probleemide lahendamiseks teadlased ja AI ettevõtted uurivad alternatiivseid lähenemisviise. Nende hulka kuuluvad aktiivõppe tehnikad, mis keskenduvad koolituseks kõige informatiivsemate andmepunktide valimisele, ja ülekandeõpe, mis kasutab ära teadmisi eelkoolitatud mudelid piiratud andmetega uute ülesannete toimivuse parandamiseks.
Mõned ettevõtted sõlmivad ka kirjastajatega lepinguid, et tagada pidev juurdepääs nende sisule. Näiteks, OpenAI, Google ja Meta on hiljuti sõlminud lepingud uudisteorganisatsioonidega nagu The Associated Press and News Corp, et tagada kvaliteetsete koolitusandmete jätkuv voog.
Kui AI Kuna tööstusharu maadleb selle tekkiva andmekriisiga, võib see olla sunnitud välja töötama tõhusamaid ja vastutustundlikumaid koolitusmudeleid. See võib viia uuendusteni andmete kogumises ja kasutamises ning isegi täiesti uute õppeparadigmade loomiseni, mis sõltuvad vähem massiivsetest andmekogumitest.
. õppima's järeldused rõhutavad vajadust tasakaalustatud lähenemisviisi järele AI arendus, mis austab intellektuaalomandi õigusi ja privaatsusprobleeme, edendades samal ajal innovatsiooni. Kuna maastik on AI Kuna koolitusandmed arenevad pidevalt, on tehnoloogiaettevõtete, sisuloojate ja poliitikakujundajate koostöö nende väljakutsetega toimetulekul ja jätkusuutliku kasvu tagamisel ülioluline. AI tehnoloogiaid.

