Andmed AI Treening kaob kiiresti, näitab uus uuring

Andmed AI Uuring näitab, et treening kaob kiiresti

MIT-i juhitud uurimisrühma Data Provenance Initiative'i hiljutine uuring näitas, et tehisintellekti (AI) mudelite koolitamiseks kasutatavate andmete kättesaadavus kasvab. Uuring, mis uuris 14,000 XNUMX veebidomeeni kuulub kolme üldkasutatava hulka AI koolitusandmekogumeid, leiti, et märkimisväärne osa kvaliteetsetest andmeallikatest piirab nüüd juurdepääsu oma sisule.

Uuringu hinnangul on andmekogumites C4, RefinedWeb ja Dolma ligikaudu Piiratud on 5% kõigist andmetest ja 25% kõrgeima kvaliteediga allikatest pärit andmetest. Neid piiranguid rakendatakse peamiselt läbi Robotite välistamise protokoll, veebisaitide omanike kauaaegne meetod, mis takistab automatiseeritud robotitel nende lehtedel roomamist, kasutades faili nimega robots.txt.

Juhtiv autor Shayne Longpre hoiatab: „Me näeme veebis andmete kasutamiseks nõusoleku andmise kiiret vähenemist, millel on tagajärjed mitte ainult... AI ettevõtetele, aga ka teadlastele, akadeemikutele ja mitteärilistele üksustele.“ See suundumus võib oluliselt mõjutada arengut ja täiustamist AI mudelid, mis sõltuvad suurel hulgal mitmekesistest kvaliteetsetest andmetest treenimiseks.

Treeningandmete nappus on muutumas kriitiliseks probleemiks AI tööstusele. Nagu AI süsteemid muutuvad keerukamaks ja neid rakendatakse üha keerukamate ülesannete lahendamiseks, kasvab nõudlus rikkalike ja mitmekesiste andmekogumite järele. Selliste andmete pakkumine aga väheneb mitmete tegurite tõttu, sealhulgas privaatsusprobleemid, eetilised kaalutlused ja tagasilöögid sisu loojad.

AI Ettevõtted ignoreerivad veebireegleid kirjastajate sisu kraapimiseks

Paljud kirjastajad ja veebiplatvormid on astunud samme, et kaitsta oma andmeid loata kogumise eest. Mõnel on tasumüürid üles seadnud või nende teenusetingimusi muutnud piirata nende sisu kasutamist AI koolitus. Teised, näiteks Reddit ja StackOverflow, on alustanud laadimise AI ettevõtted oma andmetele juurdepääsu saamiseks. Samuti on astutud õiguslikke samme, näiteks The New York Times on Openi kohtusse kaevanud.AI ja Microsofti väidetava autoriõiguste rikkumise eest, mis on seotud uudisteartiklite kasutamisega AI koolitust.

Selle andmenappuse tagajärjed on kaugeleulatuvad. AI Ebapiisavate või kallutatud andmete põhjal treenitud mudelite täpsus võib olla vähenenud, üldistatavus piiratud ja nad ei pruugi uute olukordadega kohaneda. See võib potentsiaalselt aeglustada innovatsiooni selles valdkonnas ja takistada uute tehnoloogiate väljatöötamist. AI rakendusi.

Nende probleemide lahendamiseks teadlased ja AI ettevõtted uurivad alternatiivseid lähenemisviise. Nende hulka kuuluvad aktiivõppe tehnikad, mis keskenduvad koolituseks kõige informatiivsemate andmepunktide valimisele, ja ülekandeõpe, mis kasutab ära teadmisi eelkoolitatud mudelid piiratud andmetega uute ülesannete toimivuse parandamiseks.

Mõned ettevõtted sõlmivad ka kirjastajatega lepinguid, et tagada pidev juurdepääs nende sisule. Näiteks, OpenAI, Google ja Meta on hiljuti sõlminud lepingud uudisteorganisatsioonidega nagu The Associated Press and News Corp, et tagada kvaliteetsete koolitusandmete jätkuv voog.

Kui AI Kuna tööstusharu maadleb selle tekkiva andmekriisiga, võib see olla sunnitud välja töötama tõhusamaid ja vastutustundlikumaid koolitusmudeleid. See võib viia uuendusteni andmete kogumises ja kasutamises ning isegi täiesti uute õppeparadigmade loomiseni, mis sõltuvad vähem massiivsetest andmekogumitest.

. õppima's järeldused rõhutavad vajadust tasakaalustatud lähenemisviisi järele AI arendus, mis austab intellektuaalomandi õigusi ja privaatsusprobleeme, edendades samal ajal innovatsiooni. Kuna maastik on AI Kuna koolitusandmed arenevad pidevalt, on tehnoloogiaettevõtete, sisuloojate ja poliitikakujundajate koostöö nende väljakutsetega toimetulekul ja jätkusuutliku kasvu tagamisel ülioluline. AI tehnoloogiaid.

https://twitter.com/kevinroose/status/1814320101962957235

Jäta vastus

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on märgitud *

Sellel saidil kasutatakse rämpsposti vähendamiseks Akismetit. Vaadake, kuidas teie kommentaaride andmeid töödeldakse.

Liitu Aimojo Hõim!

Liituge 76,200 XNUMX+ liikmega, et saada igal nädalal siseringi nõuandeid! 
🎁 BONUS: Hankige meie 200 dollaritAI "Meisterlikkuse tööriistakomplekt" TASUTA registreerumisel!

Trendid AI TÖÖRIISTAD
Tiitrid AI

Muutke toormaterjal minutitega stuudiokvaliteediga videoteks Kõik-ühes AI videote loomise stuudio tänapäevastele loojatele

Tekst AI

Jälgida AI Vastused, mainimiste jälgimine ja brändi nähtavuse suurendamine Essential AI Nähtavuse platvorm kaasaegsetele turundusmeeskondadele

Bramework

Muutke oma sisustrateegiat tehisintellektil põhineva SEO-blogimisega Kõik-ühes platvorm ettevõtetele ja loojatele

Clearscope

Tehisintellektil põhinev sisu optimeerimine, mis tagab teie otsingutulemuste nähtavuse tulevikukindluse Domineeri Google'is ja AI semantilise täpsusega otsing

VestlusKoristaja 

Pöörake oma AI rollimängu kinnisidee päris USDT auhindadeks, vesteldes samal ajal kõige järjepidevama tegelasega AI veebis. Majahoidja AI Läksin just särama. Tutvuge vestluskoristajaga.

© Autoriõigus 2023 - 2026 | Hakka AI Pro | Valmistatud ♥-ga