
معظم الناس يهبطون على وجه يعانقتحدق في جدار مليء بأسماء العارضات، ثم تنقر بعيدًا في غضون 30 ثانية. خطأ فادح.
بينما يتجادل الجميع حول أي AI أداة تستحق الشراء، حيث يستخدم عشرات الآلاف من البنائين برنامج Hugging Face بهدوء لتشغيله وضبطه بدقة، و سفينة Aتطبيقات مدعومة بتقنية المعلومات — مجاني تمامًا.'s ليس مجرد مكتبة نماذج.'s المنصة التي يعمل فيها كل من جوجل، وميتا، وميسترال، والمطورون المستقلون في نفس المكان.
على مدى مليون نموذج، وأكثر من 500 ألف مجموعة بيانات، واستضافة تطبيقات مجانية — تحت حساب واحد. هنا's شرح مفصل لماهيته وكيفية استخدامه فعلياً.
ما هو احتضان الوجه في الواقع (معظم الناس يخطئون في فهم هذا)

في "جيت هاب للتعلم الآلييُستخدم مصطلح "الذكاء الاصطناعي" بكثرة. وهو صحيح في اتجاه واحد - المستودعات العامة، والتحكم في الإصدارات، ومساهمات المجتمع. لكنه سرعان ما ينهار. فمنصة Hugging Face تُشغّل أيضًا الاستدلال المباشر، وتستضيف تطبيقات مدعومة بالذكاء الاصطناعي، وتوفر بنية تحتية كاملة للتدريب. أما GitHub فلا يفعل أيًا من ذلك.
بدأت الشركة نفسها كشركة ناشئة في مجال برامج الدردشة الآلية لمعالجة اللغة الطبيعية، ثم تحولت إلى البرمجيات مفتوحة المصدر. AI الأدوات، ولم ينظر إلى الوراء أبدًا. المنصة العامة is fحر وموجه من قبل المجتمعتُعدّ منتجات المؤسسات مصدر ربحهم. أما بالنسبة للمبتدئين، فتغطي الخطة المجانية كل ما يحتاجونه. تُنشر النماذج هنا. قبل إنها تتصدر عناوين الأخبار - إذا ظهر شيء جديد في مجال الذكاء الاصطناعي، فإنه يظهر أولاً على موقع Hugging Face.
الركائز الثلاث - اعرف هذه قبل أي شيء آخر
كل شيء في Hugging Face يقع ضمن ثلاثة أقسام رئيسية:
| دعامة | ما هو | لماذا يهم |
|---|---|---|
| الموديلات | أكثر من مليون مدرب مسبقًا AI عارضات ازياء | تخطي التدريب من الصفر تمامًا |
| قواعد البيانات | البيانات الأولية للتدريب والاختبار | بيانات موحدة وجاهزة للتحميل |
| المساحات | استضافة مجانية AI التطبيقات | اختبر النماذج دون المساس بشفرة النشر |
تعوّد على الثلاثة جميعاً - فهم يتصلون باستمرار أثناء عملية البناء.
مركز النماذج - حيث ستقضي معظم وقتك
لوحة التصفية هي أفضل أداة لديك هنا: نوع المهمة، والإطار البرمجي (PyTorch، TensorFlow، JAX)، واللغة، والترخيص، وحجم النموذج. فرز حسب الأكثر تحميلا للحصول على اختيارات مجربة في المعارك؛ فرز حسب تم تحديثها مؤخرا عندما تحتاج إلى خيارات جديدة.

يحتوي كل نموذج على بطاقة - اقرأها. يوضح قسم الاستخدام المقصود الغرض الذي صُمم من أجله النموذج؛ قسم القيود يُخبرك هذا بمواطن الخلل. هذا الجزء الثاني أكثر قيمة من أي نتيجة معيارية. تشمل فئات النماذج معالجة اللغة الطبيعية (تصنيف النصوص، والتلخيص، والترجمة، والإجابة على الأسئلة)، والرؤية الحاسوبية (تصنيف الصور، واكتشاف الكائنات، وتوليدها)، والصوت (التعرف التلقائي على الكلام، وتحويل النص إلى كلام)، مهام متعددة الوسائط مثل الإجابة على الأسئلة المرئية.
هناك أمرٌ يغفل عنه المبتدئون: ليس كل النماذج قابلة للتنزيل مجانًا. النماذج المقيدة مثل مييتااا's اللاما نوع من الجمال يتطلب الأمر موافقة مسبقة قبل الوصول. بعد الموافقة، يتم التحقق من الهوية باستخدام رمز الوصول. تحقق دائمًا من الترخيص قبل البدء بالبناء، فبعض النماذج تحظر الاستخدام التجاري تمامًا.
مكتبة المتحولون - الكود الذي يشغل نصف AI العالم
استخدم transformers المكتبة هي موحد Python صفقة هذا يوحد طريقة تحميل وتشغيل أي نموذج على المحور عبر PyTorch وTensorFlow وJAX باستخدام نفس واجهة برمجة التطبيقات.

استخدم pipeline() الوظيفة هي المكان الذي يجب أن يبدأ منه معظم المبتدئين - فهي تجمع بين تجزئة الكلمات وتحميل النموذج والمعالجة اللاحقة في استدعاء واحد. تحليل المشاعرتوليد النصوص، وتصنيف الصور - جميعها تتبع النمط نفسه تمامًا. عندما تحتاج إلى تحكم دقيق في المخرجات، انتقل إلى كتابة كود استدلال مخصص. حتى ذلك الحين، تتولى خطوط المعالجة كل شيء.
لا تتجاهل عملية تجزئة النص. لا يمكن إدخال النص الخام مباشرةً في النموذج. AutoTokenizer يتولى البرنامج عملية التحويل ويطابق دائمًا المُجزِّئ الصحيح مع نقطة التفتيش الصحيحة تلقائيًا. تتسبب المُجزِّئات غير المتطابقة في أكثر الأخطاء إرباكًا التي يواجهها المبتدئون، ويمكن تجنبها تمامًا.
| مهمة | اسم خط الأنابيب | نموذج المثال |
|---|---|---|
| تحليل المشاعر | text-classification | مقطر-قاعدة-غير محدد |
| توليد النص | text-generation | ميسترال-7ب |
| تلخيص | summarization | facebook/bart-large-cnn |
| التعرف على الكلام | automatic-speech-recognition | openai/whisper-base |
| تصنيف الصور | image-classification | google/vit-base-patch16 |
مجموعات البيانات والمساحات - الميزتان اللتان لا يستخدمهما أحد بما فيه الكفاية
استخدم datasets تقوم المكتبة بتحميل البيانات بتنسيق Apache Arrow - سريع، وفعال من حيث استخدام الذاكرة، ومصمم للتعامل مع مجموعات البيانات التي لا تتناسب مع ذاكرة الوصول العشوائي (RAM). load_dataset("name", split="train") هذا كل ما يتطلبه الأمر للبدء. قبل أن تختار أي مجموعة بيانات لتشغيل التدريب، استخدم ستوديو البيانات في المتصفح لمعاينته وتصفيته دون كتابة سطر واحد من التعليمات البرمجية.
المساحات هي المكان AI تُتاح العروض التجريبية مجانًا. يحصل تطبيقك على رابط قابل للمشاركة في دقائق دون أي جهد من فريق التطوير. تتولى الطبقة المجانية من وحدة المعالجة المركزية التعامل مع العروض التجريبية الخفيفة، بينما تتولى المساحات المدفوعة المدعومة بوحدة معالجة الرسومات التعامل مع النماذج الأكثر تعقيدًا.
استعمل Gradio للحصول على عروض توضيحية سريعة للنماذج بأقل قدر من التعليمات البرمجية؛ استخدم انسيابي عندما يحتاج تطبيقك إلى تصميم لوحة تحكم أكثر كثافة بالبيانات، فإن استنساخ مساحة رائجة هو أسرع طريقة للبدء - اختر واحدة في فئتك، وانسخها، وقم بتخصيصها.
إعداد حسابك بالطريقة الصحيحة
تشمل الخطة المجانية تصفح النماذج، ومساحات وحدة المعالجة المركزية، واستدعاءات واجهة برمجة التطبيقات محدودة المعدل، والوصول الكامل إلى المجتمع. أما الخطة الاحترافية فتضيف مساحات وحدة معالجة الرسومات ذات الأولوية، والاستدلال الموسع، والمستودعات الخاصة. بالنسبة لمعظم المبتدئين، الخطة المجانية كافية.
قم بإنشاء رمز وصول ضمن الإعدادات ← رموز الوصولتُستخدم رموز القراءة للتنزيل، بينما تُستخدم رموز الكتابة لدفع النماذج أو مجموعات البيانات. يمكنك المصادقة في بايثون باستخدام huggingface_hub.login()للتثبيت:

سحق
pip install transformers datasets huggingface_hub
إضافة accelerate, peftو trl إذا كانت التحسينات الدقيقة ضمن خطة التطوير، فإن Google Colab هي أسرع بيئة للمبتدئين تمامًا - مجانًا. وحدة معالجة الرسوميات:لا يوجد شيء لتكوينه محلياً.
تشغيل نموذجك الأول، ثم جعله خاصًا بك
لتحليل المشاعر: دعوة pipeline("text-classification")، مرر سلسلة نصية، واقرأها label و score للرجوع. لإنشاء النصوص: استخدم max_new_tokens, temperatureو do_sample للتحكم في مدى إبداع الناتج مقابل اتساقه. نفس الشيء pipeline() يعمل النمط في الترجمة والتعرف على الكلام وتصنيف الصور - لا تتغير واجهة برمجة التطبيقات، بل يتغير اسم المهمة فقط.
عندما تتعطل الأشياء:
بمجرد استيعاب الأساسيات، تأتي مرحلة الضبط الدقيق. النماذج المدربة مسبقًا عامة، بينما النماذج المضبوطة بدقة عالية. يُعد الضبط الدقيق أفضل من التوجيه عند العمل مع بيانات خاصة بمجال معين، أو عند الحاجة إلى سلوك متسق، أو عند الرغبة في تقليل تكاليف الاستدلال من خلال تشغيل نموذج متخصص أصغر.
بيفت يقوم بتجميد معظم النموذج وتدريب المحولات الخفيفة فقط - لا حاجة إلى وحدة معالجة رسومات بقيمة 10 آلاف دولار. كلورا ويذهب الأمر إلى أبعد من ذلك من خلال التكميم، مما يجعل ضبط نموذج المعلمات 7B ممكنًا على وحدة معالجة رسومات واحدة للمستهلك.
استخدم Trainer تتولى واجهة برمجة التطبيقات إدارة الحلقة بأكملها - التجميع والتقييم ونقاط التحقق - ولا يتطلب الدفع مرة أخرى إلى المركز سوى سطر واحد عند الانتهاء.
الاستدلال بدون خادمك الخاص
توفر لك واجهة برمجة تطبيقات الاستدلال المستضافة نقطة نهاية REST لأي نموذج عام على الفور. الطبقة المجانية محدودة الاستخدام - مناسبة للاختبار، وليست للإنتاج. بالنسبة للتطبيقات الحقيقية، نقاط النهاية الاستدلالية توفير واجهة برمجة تطبيقات خاصة ومخصصة تتوسع تلقائيًا إلى الصفر عند الخمول، مما يحافظ على التكاليف قابلة للإدارة لحركة المرور المتغيرة.

عندما تكون خصوصية البيانات أو زمن الاستجابة أمراً لا يقبل المساومة، فإن الاستضافة الذاتية مع TGI (استنتاج توليد النصوص) or vLLM هذا هو المسار الجاهز للإنتاج.
المجتمع، ولوحات المتصدرين، ولماذا يتفوق على كل شيء آخر
استخدم افتح لوحة المتصدرين LLM يُصنّف هذا النظام النماذج وفقًا لمعايير محددة، وهو مفيد في عملية الاختيار، ولكن يُنصح دائمًا بالتحقق من صحة النتائج في حالة الاستخدام الفعلية قبل الاعتماد عليها. تتيح حسابات المؤسسات للفرق إدارة مجموعات النماذج المشتركة مع إمكانية تحكم في الوصول؛ مثل Meta AI وGoogle وEleuther.AI جميع حسابات المؤسسة تُدار مباشرةً على المنصة.
تتيح لك متابعة الباحثين والمنظمات الحصول على تغذية فورية لإصدارات النماذج الجديدة دون الحاجة إلى مراقبة وسائل التواصل الاجتماعي.
| المنظومة | مفتوحة المصدر | تنوع النموذج | الطبقة المجانية | أدوات الضبط الدقيق |
|---|---|---|---|---|
| وجه يعانق | ✅ كاملة | ✅ مليون+ | ✅ كريم | ✅ مجموعة كاملة |
| محور TensorFlow | نعم | 🔶 محدودة | نعم | ❌ أساسي |
| جوجل موديل جاردن | ❌ جزئي | 🔶 مُنتقى بعناية | 🔶 خاص بمنصة جوجل السحابية | 🔶 خاص بمنصة جوجل السحابية |
| ساعات العملAI API | ❌ لا | ❌ مغلق | ❌ مدفوع فقط | 🔶 محدودة |
أخطاء ستكلفك ساعات
- اختيار النموذج الأكبر حجماً في حين أن النموذج الأصغر حجماً والمخصص لمهمة معينة يعمل بشكل أسرع وأرخص.
- تخطي بطاقة النموذج's قسم القيود قبل بناء أي شيء فوقه
- عدم تثبيت مراجعات النموذج - يتم تحديث النماذج بصمت وتتغير المخرجات دون سابق إنذار
- استخدام واجهة برمجة تطبيقات الاستدلال المجانية لأي شيء يحتاج إلى وقت تشغيل إنتاجي ثابت
- تمرير النص الخام مباشرة إلى النموذج دون تمريره عبر مُجزئ الكلمات أولاً
توصي AiMojo بـ:
أين أذهب من هنا
وجه يعانق's دورات مجانية at hf.co/learn تغطي هذه المنصة معالجة اللغة الطبيعية، والصوت، والتعلم العميق المعزز، وذلك من خلال مسارات منظمة مصممة خصيصًا لها. أفضل مشروع مبدئي: ضبط مُصنِّف نصوص على مجموعة بيانات مخصصة، وتغليفه باستخدام Gradio، ونشره كمساحة عمل.
تؤثر عملية البناء هذه على النماذج ومجموعات البيانات والضبط الدقيق والمساحات دفعة واحدة. بمجرد أن's قم بتحميل النموذج واكتب بطاقة نموذج مناسبة - تغطي الاستخدام المقصود وبيانات التدريب والقيود.
أن's كيف يتم تقديم المساهمات العامة المفيدة، و's كيف تبدأ في بناء حضور حقيقي في AI مفتوح المصدر الفضاء.

