أهم رؤى أرجيللا
ما هو الأرجيللا؟

طين هي منصة مجانية ومفتوحة المصدر لشرح البيانات وتلقي التعليقات البشرية، مصممة لـ AI المهندسون وخبراء المجال الذين يحتاجون إلى إنشاء مجموعات بيانات عالية الجودة. تم تطوير Argilla في الأصل كأداة مستقلة، وهي الآن جزء من وجه يعانق النظام البيئي. يدعم مجموعة واسعة من AI تشمل المهام تصنيف النصوص، والتعرف على الكيانات المسماة، والضبط الدقيق لنموذج التعلم الموجه من خلال التعلم الخاضع للإشراف، وجمع بيانات تفضيلات RLHF.
تستخدم المنصة حزمة تطوير برمجية (SDK) بلغة بايثون وواجهة مستخدم قائمة على المتصفح تتيح للفرق تصنيف سجلات البيانات وتقييمها وترتيبها ومراجعتها باستخدام عوامل التصفية. AI تُقدّم Argilla اقتراحات مُساعدة وبحثًا عن التشابه. وهي مُستضافة ذاتيًا بالكامل دون اشتراك إلزامي، مما يجعلها مثالية للفرق التي تحتاج إلى ملكية كاملة للبيانات والتحكم بها. تعمل Argilla على Hugging Face Spaces أو حاويات Docker، وتدعم إدارة مجموعات البيانات برمجيًا لتحسين نماذج سير العمل بشكل مستمر.
يُسهّل برنامج Argilla جمع بيانات تفضيلات المستخدمين لتعلم التعزيز من خلال ملاحظاتهم. إذ يُمكن للمُعلّقين تصنيف وتقييم استجابات نماذج متعددة لسؤال واحد، مما يُولّد مجموعات بيانات المقارنة اللازمة لتدريب نموذج المكافأة. وهذا ما يجعله من أكثر البرامج سهولة في الاستخدام. أدوات مفتوحة المصدر لمواءمة نماذج اللغة الكبيرة مع القيم الإنسانية.
تدعم المنصة أنواع الأسئلة التالية: التقييم، والتصنيف، والنص، والأسئلة ذات التصنيف الواحد، والأسئلة متعددة التصنيفات، والأسئلة الشاملة. ويمكن للفرق دمج هذه القوالب ومطابقتها لإنشاء سير عمل التعليقات التوضيحية المخصصة وهي تناسب جميع حالات الاستخدام تقريبًا. هذه المرونة تعني أن مجموعة بيانات واحدة يمكنها جمع أشكال متعددة من التعليقات في آن واحد، مما يوفر وقت المُعلِّق ويُحسِّن ثراء البيانات.
يمكن استيراد مجموعات البيانات وتصديرها مباشرةً من وإلى منصة Hugging Face Hub عبر واجهة المستخدم أو باستخدام حزمة تطوير البرامج (SDK) الخاصة بلغة Python. يتيح هذا التكامل السلس التحكم في إصدارات مشاريع التعليقات التوضيحية، ومشاركة مجموعات البيانات مع المجتمع، أو استيراد مجموعات البيانات مفتوحة المصدر الشائعة لإجراء تجارب سريعة. بنقرة واحدة، يتم تشغيل نسخة كاملة من Argilla على منصة Hugging Face Spaces في أقل من خمس دقائق.
تمنح حزمة تطوير البرمجيات Argilla SDK المهندسين تحكمًا كاملاً في إنشاء مجموعات البيانات، وإدارة السجلات، وإدارة المستخدمين، وتصدير البيانات. ويمكن أيضًا برمجة كل ما يُمكن فعله في واجهة المستخدم باستخدام لغة بايثون، مما يُتيح إنشاء مسارات عمل مؤتمتة تربط عمليات إضافة التعليقات التوضيحية بحلقات تدريب النماذج. تدعم حزمة تطوير البرمجيات بايثون من الإصدار 3.9 إلى 3.13. بايدانتيك الإصدار الثاني.
تتيح منصة Argilla للفرق إرفاق تنبؤات النموذج كمقترحات للسجلات، ما يسمح للمُعلِّقين بقبولها أو تعديلها أو رفضها بدلاً من البدء بالتصنيف من الصفر. وبالجمع بين هذه الميزة والبحث الدلالي وفلاتر البيانات الوصفية، يُقلل ذلك بشكل كبير من وقت التصنيف. ويركز المُعلِّقون جهودهم على السجلات الأكثر أهمية بدلاً من العمل على البيانات بشكل عشوائي.

أضاف الإصدار 2.5 دعمًا لتقنية Webhook، مما يسمح للأنظمة الخارجية بالتفاعل مع الأحداث داخل Argilla في الوقت الفعلي. عند اكتمال سجل أو تغيير مجموعة بيانات، يمكن لـ Argilla تشغيل عمليات لاحقة مثل إعادة تدريب المهام أو فحوصات الجودة. هذا يحوّل Argilla إلى عنصر حيوي في مسار MLOps الإنتاجي بدلاً من كونه أداة تعليق مستقلة.
خطط أسعار أرجيللا
| اسم الباقة | التكلفة | الحدود والميزات الرئيسية |
|---|---|---|
| مفتوح المصدر (مُستضاف ذاتيًا) | $0 | عدد غير محدود من المستخدمين، ومجموعات بيانات غير محدودة، وإمكانية الوصول إلى جميع الميزات، والنشر على Docker أو خادم محلي |
| مساحات الوجه المحتضنة مستمرة | من 5 دولار / شهر | تخزين دائم، أجهزة مطورة، مناسب للفرق الصغيرة |
| مؤسسة مساحات احتضان الوجه | فن التأطير المتخصص | أجهزة مخصصة، تسجيل دخول موحد للمؤسسة، شبكات خاصة |
نشر أرجيللا على البنية التحتية الخاصة بك
بالنسبة للفرق التي لديها متطلبات صارمة لحوكمة البيانات، يمكن نشر Argilla بالكامل على بنية تحتية خاصة باستخدام Docker. يمنح هذا تحكمًا كاملاً في قواعد بيانات التخزين (PostgreSQL بالإضافة إلى Elasticsearch أو OpenSearch)، ومصادقة المستخدم، والوصول إلى الشبكة. يدعم الخادم تهيئة متغيرات البيئة لموفري OAuth2، وSSL، وتوجيه عناوين URL الأساسية.
تتوفر مخططات Helm لعمليات نشر Kubernetes، مما يُسهّل توسيع نطاق قدرة التعليقات التوضيحية جنبًا إلى جنب مع البنية التحتية الحالية للتعلم الآلي. ولأن المنصة مرخصة بموجب ترخيص MIT، فلا توجد رسوم استخدام أو قيود على عدد المستخدمين أو قيود على الميزات في النسخ المستضافة ذاتيًا.
المزايا والعيوب
- مجاني تمامًا ومفتوح المصدر.
- تكامل Native Hugging Face Hub.
- مصمم خصيصاً لسير عمل RLHF.
- قوالب أسئلة وحقول مرنة.
- مجموعة أدوات تطوير برمجية كاملة للغة بايثون لأتمتة العمليات.
- عدد غير محدود من المستخدمين ومجموعات البيانات.
- لا يوجد خيار استضافة سحابية مُدارة.
- لقد انتقل الفريق الأساسي الأصلي إلى مكان آخر.
- لا توجد تعليقات صوتية/مرئية أصلية.
- يتطلب الإعداد معرفة تقنية
أرجيللا ونظام العناق البيئي
انضمت أرجيللا إلى Hugging Face في عام 2024، مما عزز دورها كطبقة التعليقات التوضيحية الأساسية ضمن أكبر مشروع مفتوح المصدر AI المجتمع. تعني هذه الصفقة تكاملاً أوثق مع مجموعات بيانات Hugging Face، وTransformers، وHub. يمكن للمستخدمين إرسال مجموعات البيانات المشروحة مباشرةً إلى Hub للتحكم في الإصدارات ومشاركتها مع المجتمع.
تُكمّل مكتبة Distilabel، التي طورها نفس الفريق، برنامج Argilla من خلال توليد بيانات اصطناعية يقوم المُعلّقون بتنقيحها. وتُشكّل هذه الأدوات معًا حلقة تغذية راجعة حيث يعمل توليد البيانات الاصطناعية والتحقق البشري جنبًا إلى جنب، مما يُسرّع عملية إنشاء مجموعات البيانات لـ مشاريع ماجستير القانون دون التضحية بالجودة.
أفضل بدائل الأرجيلة
| منصة شرح البيانات وردود الفعل البشرية | مفتوح المصدر ومستضاف ذاتيًا | التركيز على برنامج ماجستير القانون/برنامج ماجستير الصحة العقلية |
|---|---|---|
| استوديو التسمية | ✅ مفتوح المصدر، ويتضمن أيضًا مستوى المؤسسات | شرح محدود، وعام في المقام الأول |
| معجزة | ❌ رخصة تجارية فقط | متوسط، قوي للتعلم النشط في معالجة اللغة الطبيعية |
| صندوق التسمية | ❌ خدمة SaaS فقط مع الخطط المدفوعة | تركيز معتدل وأوسع نطاقًا على رؤية الكمبيوتر |
