
MIT liderliğindeki bir araştırma grubu olan Data Provenance Initiative tarafından yakın zamanda yapılan bir araştırma, yapay zeka (AI) modellerini eğitmek için kullanılan verilerin kullanılabilirliğinde büyüyen bir krizi ortaya çıkardı. Araştırma, hangi 14,000 web alanını inceledi yaygın olarak kullanılan üç tanesine dahil AI Eğitim veri kümeleri üzerinde yapılan bir araştırmada, yüksek kaliteli veri kaynaklarının önemli bir bölümünün artık içeriklerine erişimi kısıtladığı tespit edildi.
Çalışma, C4, RefinedWeb ve Dolma veri kümelerinde yaklaşık olarak Tüm verilerin %5'i ve en yüksek kaliteli kaynaklardan alınan verilerin %25'i kısıtlandı. Bu kısıtlamalar öncelikle aşağıdakiler aracılığıyla uygulanır: Robotları Hariç Tutma ProtokolüBu, web sitesi sahiplerinin robots.txt adlı bir dosyayı kullanarak otomatik botların sayfalarını taramasını engellemeye yönelik uzun süredir devam eden bir yöntemdir.
Baş yazar Shayne Longpre, "Web genelinde veri kullanımına ilişkin onayda hızlı bir düşüş görüyoruz ve bunun sadece AI şirketler için değil, araştırmacılar, akademisyenler ve ticari olmayan kuruluşlar için geçerlidir.” Bu eğilim, AI modelleri, eğitim için büyük miktarda çeşitli, yüksek kaliteli verilere dayanır.
Eğitim verilerinin kıtlığı, günümüzde kritik bir sorun haline geliyor. AI endüstri. Gibi AI Sistemler daha karmaşık hale geldikçe ve giderek daha karmaşık görevlere uygulandıkça, zengin ve çeşitli veri kümelerine olan talep artmaktadır. Ancak, bu tür verilerin arzı, aşağıdakiler de dahil olmak üzere çeşitli faktörler nedeniyle azalmaktadır: gizlilik endişeleri, etik hususlar ve içerik oluşturucuları.

Birçok yayıncı ve çevrimiçi platform, verilerinin izinsiz toplanmasını önlemek için adımlar attı. Bazıları var ödeme duvarları oluşturdu veya hizmet şartlarını değiştirdi içeriklerinin kullanımını sınırlamak için AI eğitim. Reddit ve StackOverflow gibi diğerleri ise doldurma AI şirketler Verilerine erişim için yasal işlemler de başlatıldı; New York Times, Open'ı dava ettiAI ve Microsoft, haber makalelerinin kullanımıyla ilgili iddia edilen telif hakkı ihlali nedeniyle AI eğitim.
Bu veri kıtlığının etkileri çok geniş kapsamlıdır. AI Yetersiz veya önyargılı verilerle eğitilen modeller, daha düşük doğruluk, sınırlı genelleştirilebilirlik ve yeni durumlara uyum sağlamada yetersizlik yaşayabilir. Bu durum, potansiyel olarak alandaki inovasyonu yavaşlatabilir ve yeni modellerin geliştirilmesini engelleyebilir. AI uygulamaları.
Bu zorlukların üstesinden gelmek için araştırmacılar ve AI Şirketler alternatif yaklaşımları araştırıyor. Bunlar arasında, eğitim için en bilgilendirici veri noktalarını seçmeye odaklanan aktif öğrenme teknikleri ve bilginin bir kaynaktan aktarılmasını sağlayan transfer öğrenmesi yer alıyor. önceden eğitilmiş modeller Sınırlı verilere sahip yeni görevlerde performansı artırmak için.
Bazı şirketler, içeriklerine sürekli erişimi güvence altına almak için yayıncılarla da anlaşmalar yapıyor. Örneğin, OpenAI, Google ve Meta yakın zamanda haber kuruluşlarıyla anlaşmalar imzaladı Yüksek kaliteli eğitim verilerinin sürekli akışını sağlamak için Associated Press ve News Corp gibi.
olarak AI Endüstri, bu yeni ortaya çıkan veri kriziyle boğuşurken, daha verimli ve sorumlu eğitim modelleri geliştirmek zorunda kalabilir. Bu durum, veri toplama ve kullanımında yeniliklere ve hatta büyük veri kümelerine daha az bağımlı, tamamen yeni öğrenme paradigmalarına yol açabilir.
MKS ders çalışma's bulgular dengeli bir yaklaşıma ihtiyaç duyulduğunun altını çizmek AI fikri mülkiyet haklarına ve gizlilik endişelerine saygı gösterirken aynı zamanda inovasyonu da teşvik eden bir gelişme. AI Eğitim verileri gelişmeye devam ettikçe, teknoloji şirketleri, içerik oluşturucuları ve politika yapıcılar arasındaki iş birliği, bu zorlukların üstesinden gelmek ve sürdürülebilir büyümeyi sağlamak için çok önemli olacak. AI teknolojiler.

