
Sebuah studi baru-baru ini yang dilakukan oleh Data Provenance Initiative, sebuah kelompok penelitian yang dipimpin MIT, mengungkapkan krisis yang semakin besar dalam ketersediaan data yang digunakan untuk melatih model kecerdasan buatan (AI). Penelitian, yang memeriksa 14,000 domain web termasuk dalam tiga yang umum digunakan AI kumpulan data pelatihan, menemukan bahwa sebagian besar sumber data berkualitas tinggi sekarang membatasi akses ke kontennya.
Studi ini memperkirakan bahwa dalam kumpulan data C4, RefinedWeb, dan Dolma, kira-kira 5% dari seluruh data dan 25% data dari sumber dengan kualitas terbaik telah dibatasi. Pembatasan ini terutama diterapkan melalui Protokol Pengecualian Robot, metode lama bagi pemilik situs web untuk mencegah bot otomatis merayapi laman mereka menggunakan file bernama robots.txt.
Penulis utama Shayne Longpre memperingatkan, “Kita melihat penurunan cepat dalam persetujuan untuk menggunakan data di seluruh web yang akan berdampak tidak hanya pada AI perusahaan, tetapi juga untuk para peneliti, akademisi, dan entitas nonkomersial.” Tren ini dapat berdampak signifikan terhadap pengembangan dan peningkatan AI model, yang sangat bergantung pada sejumlah besar data yang beragam dan berkualitas tinggi untuk pelatihan.
Kelangkaan data pelatihan menjadi masalah kritis dalam AI industri. Sebagai AI Sistem menjadi lebih canggih dan diterapkan pada tugas yang semakin kompleks, sehingga permintaan akan kumpulan data yang kaya dan beragam pun meningkat. Namun, pasokan data tersebut semakin berkurang karena berbagai faktor, termasuk masalah privasi, pertimbangan etis, dan penolakan dari pencipta konten.

Banyak penerbit dan platform online telah mengambil langkah-langkah untuk melindungi data mereka agar tidak diambil tanpa izin. Punya beberapa menyiapkan paywall atau mengubah persyaratan layanannya untuk membatasi penggunaan konten mereka untuk AI pelatihan. Lainnya, seperti Reddit dan StackOverflow, telah memulai pengisian AI perusahaan untuk mengakses data mereka. Tindakan hukum juga telah diambil, dengan The New York Times menggugat OpenAI dan Microsoft atas dugaan pelanggaran hak cipta terkait penggunaan artikel berita di AI pelatihan.
Implikasi dari kelangkaan data ini sangat luas. AI Model yang dilatih dengan data yang tidak memadai atau bias dapat mengalami penurunan akurasi, generalisasi yang terbatas, dan ketidakmampuan untuk beradaptasi dengan situasi baru. Hal ini berpotensi memperlambat inovasi di bidang ini dan menghambat pengembangan model baru. AI aplikasi.
Untuk mengatasi tantangan ini, para peneliti dan AI perusahaan sedang mengeksplorasi pendekatan alternatif. Pendekatan ini mencakup teknik pembelajaran aktif, yang berfokus pada pemilihan titik data paling informatif untuk pelatihan, dan pembelajaran transfer, yang memanfaatkan pengetahuan dari model pra-terlatih untuk meningkatkan kinerja pada tugas-tugas baru dengan data terbatas.
Beberapa perusahaan juga membuat kesepakatan dengan penerbit untuk mengamankan akses berkelanjutan terhadap konten mereka. Contohnya, OpenAI, Google, dan Meta baru-baru ini menandatangani perjanjian dengan organisasi berita seperti The Associated Press dan News Corp untuk memastikan aliran data pelatihan berkualitas tinggi yang berkelanjutan.
Sebagai AI Industri yang bergulat dengan krisis data yang sedang berkembang ini mungkin terpaksa mengembangkan cara pelatihan model yang lebih efisien dan bertanggung jawab. Hal ini dapat menghasilkan inovasi dalam pengumpulan data, pemanfaatannya, dan bahkan paradigma pembelajaran yang sepenuhnya baru yang tidak terlalu bergantung pada kumpulan data besar.
The belajar's Temuan menggarisbawahi perlunya pendekatan yang seimbang terhadap AI pengembangan yang menghormati hak kekayaan intelektual dan masalah privasi, sekaligus mendorong inovasi. Seiring dengan lanskap AI data pelatihan terus berkembang, kolaborasi antara perusahaan teknologi, pembuat konten, dan pembuat kebijakan akan menjadi krusial dalam menavigasi tantangan ini dan memastikan pertumbuhan berkelanjutan AI Teknologi.

