Data untuk AI Studi Baru Mengungkapkan Pelatihan Menghilang dengan Cepat

Data untuk AI Studi Menunjukkan Pelatihan Menghilang dengan Cepat

Sebuah studi baru-baru ini yang dilakukan oleh Data Provenance Initiative, sebuah kelompok penelitian yang dipimpin MIT, mengungkapkan krisis yang semakin besar dalam ketersediaan data yang digunakan untuk melatih model kecerdasan buatan (AI). Penelitian, yang memeriksa 14,000 domain web termasuk dalam tiga yang umum digunakan AI kumpulan data pelatihan, menemukan bahwa sebagian besar sumber data berkualitas tinggi sekarang membatasi akses ke kontennya.

Studi ini memperkirakan bahwa dalam kumpulan data C4, RefinedWeb, dan Dolma, kira-kira 5% dari seluruh data dan 25% data dari sumber dengan kualitas terbaik telah dibatasi. Pembatasan ini terutama diterapkan melalui Protokol Pengecualian Robot, metode lama bagi pemilik situs web untuk mencegah bot otomatis merayapi laman mereka menggunakan file bernama robots.txt.

Penulis utama Shayne Longpre memperingatkan, “Kita melihat penurunan cepat dalam persetujuan untuk menggunakan data di seluruh web yang akan berdampak tidak hanya pada AI perusahaan, tetapi juga untuk para peneliti, akademisi, dan entitas nonkomersial.” Tren ini dapat berdampak signifikan terhadap pengembangan dan peningkatan AI model, yang sangat bergantung pada sejumlah besar data yang beragam dan berkualitas tinggi untuk pelatihan.

Kelangkaan data pelatihan menjadi masalah kritis dalam AI industri. Sebagai AI Sistem menjadi lebih canggih dan diterapkan pada tugas yang semakin kompleks, sehingga permintaan akan kumpulan data yang kaya dan beragam pun meningkat. Namun, pasokan data tersebut semakin berkurang karena berbagai faktor, termasuk masalah privasi, pertimbangan etis, dan penolakan dari pencipta konten.

AI Perusahaan Abaikan Aturan Web untuk Mengikis Konten Penerbit

Banyak penerbit dan platform online telah mengambil langkah-langkah untuk melindungi data mereka agar tidak diambil tanpa izin. Punya beberapa menyiapkan paywall atau mengubah persyaratan layanannya untuk membatasi penggunaan konten mereka untuk AI pelatihan. Lainnya, seperti Reddit dan StackOverflow, telah memulai pengisian AI perusahaan untuk mengakses data mereka. Tindakan hukum juga telah diambil, dengan The New York Times menggugat OpenAI dan Microsoft atas dugaan pelanggaran hak cipta terkait penggunaan artikel berita di AI pelatihan.

Implikasi dari kelangkaan data ini sangat luas. AI Model yang dilatih dengan data yang tidak memadai atau bias dapat mengalami penurunan akurasi, generalisasi yang terbatas, dan ketidakmampuan untuk beradaptasi dengan situasi baru. Hal ini berpotensi memperlambat inovasi di bidang ini dan menghambat pengembangan model baru. AI aplikasi.

Untuk mengatasi tantangan ini, para peneliti dan AI perusahaan sedang mengeksplorasi pendekatan alternatif. Pendekatan ini mencakup teknik pembelajaran aktif, yang berfokus pada pemilihan titik data paling informatif untuk pelatihan, dan pembelajaran transfer, yang memanfaatkan pengetahuan dari model pra-terlatih untuk meningkatkan kinerja pada tugas-tugas baru dengan data terbatas.

Beberapa perusahaan juga membuat kesepakatan dengan penerbit untuk mengamankan akses berkelanjutan terhadap konten mereka. Contohnya, OpenAI, Google, dan Meta baru-baru ini menandatangani perjanjian dengan organisasi berita seperti The Associated Press dan News Corp untuk memastikan aliran data pelatihan berkualitas tinggi yang berkelanjutan.

Sebagai AI Industri yang bergulat dengan krisis data yang sedang berkembang ini mungkin terpaksa mengembangkan cara pelatihan model yang lebih efisien dan bertanggung jawab. Hal ini dapat menghasilkan inovasi dalam pengumpulan data, pemanfaatannya, dan bahkan paradigma pembelajaran yang sepenuhnya baru yang tidak terlalu bergantung pada kumpulan data besar.

The belajar's Temuan menggarisbawahi perlunya pendekatan yang seimbang terhadap AI pengembangan yang menghormati hak kekayaan intelektual dan masalah privasi, sekaligus mendorong inovasi. Seiring dengan lanskap AI data pelatihan terus berkembang, kolaborasi antara perusahaan teknologi, pembuat konten, dan pembuat kebijakan akan menjadi krusial dalam menavigasi tantangan ini dan memastikan pertumbuhan berkelanjutan AI Teknologi.

https://twitter.com/kevinroose/status/1814320101962957235

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses.

bergabung dengan Aimojo Suku!

Bergabunglah dengan 76,200+ anggota untuk mendapatkan tips orang dalam setiap minggu! 
🎁 BONUS: Dapatkan $200 kami “AI “Mastery Toolkit” GRATIS jika Anda mendaftar!

Tren AI Tools
SitusGPT

Ubah Konten Situs Web Anda Menjadi Layanan 24/7 AI Agen Pendukung  Tanpa kode AI Pembuat chatbot yang dirancang untuk tim dan agensi dukungan pelanggan.

Talkio AI

Anda Selalu Siap Membantu AI Tutor Bahasa untuk Kefasihan Berbicara yang Sesungguhnya AI latihan berbicara yang intensif dalam 70 bahasa dan 134 dialek.

Yomu AI

Tulis Makalah Akademik yang Lebih Baik dengan Lebih Cepat dengan AI Bantuan The AI Asisten Penulisan Esai dan Makalah Penelitian

AI Pendekx

Otomatiskan Produksi Video Pendek Viral dalam Skala Besar AI Fitur pembuatan video tanpa wajah yang canggih untuk TikTok, YouTube Shorts, dan Instagram Reels.

Kelenturan Iklan

Ungkap Kampanye Iklan Paling Menguntungkan dari Pesaing di Enam Saluran Trafik  Alat mata-mata iklan nomor satu yang dipercaya oleh pemasar afiliasi dan pembeli media di seluruh dunia.

© Hak Cipta 2023 - 2026 | Menjadi Anggota AI Pro | Dibuat dengan ♥