ข้อมูลเชิงลึกที่สำคัญเกี่ยวกับอาร์จิลลา
อาร์จิลลาคืออะไร?

ดินเหนียว เป็นแพลตฟอร์มการติดป้ายกำกับข้อมูลและการให้ข้อเสนอแนะจากมนุษย์แบบโอเพนซอร์สและใช้งานได้ฟรี สร้างขึ้นเพื่อ... AI วิศวกรและผู้เชี่ยวชาญเฉพาะด้านที่ต้องการสร้างชุดข้อมูลคุณภาพสูง เดิมที Argilla ถูกพัฒนาขึ้นเป็นเครื่องมือแบบสแตนด์อโลน แต่ปัจจุบันเป็นส่วนหนึ่งของชุดเครื่องมือแล้ว กอดหน้า ระบบนิเวศนี้สนับสนุนสิ่งต่างๆ มากมาย AI งานต่างๆ ได้แก่ การจำแนกประเภทข้อความ การระบุเอนทิตีที่มีชื่อ การปรับแต่ง LLM ผ่านการเรียนรู้แบบมีผู้กำกับดูแล และการรวบรวมข้อมูลความชอบ RLHF
แพลตฟอร์มนี้ใช้ SDK ของ Python และ UI บนเว็บเบราว์เซอร์ ซึ่งช่วยให้ทีมสามารถติดป้ายกำกับ ให้คะแนน จัดอันดับ และตรวจสอบบันทึกข้อมูลโดยใช้ตัวกรองได้ AI Argilla มีระบบแนะนำอัตโนมัติและการค้นหาความคล้ายคลึงกัน สามารถโฮสต์ได้เองทั้งหมดโดยไม่ต้องเสียค่าสมัครสมาชิก ทำให้เหมาะสำหรับทีมที่ต้องการความเป็นเจ้าของและควบคุมข้อมูลอย่างเต็มที่ ทำงานบน Hugging Face Spaces หรือคอนเทนเนอร์ Docker และรองรับการจัดการชุดข้อมูลแบบโปรแกรมสำหรับเวิร์กโฟลว์การปรับปรุงโมเดลอย่างต่อเนื่อง
Argilla ช่วยให้การรวบรวมข้อมูลความชอบของมนุษย์สำหรับการเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์ทำได้ง่ายขึ้น ผู้ให้ข้อมูลสามารถจัดอันดับและให้คะแนนการตอบสนองของโมเดลหลายๆ แบบต่อคำถามเดียว ทำให้เกิดชุดข้อมูลเปรียบเทียบที่จำเป็นสำหรับการฝึกโมเดลรางวัล จึงทำให้ Argilla เป็นหนึ่งในเครื่องมือที่เข้าถึงได้ง่ายที่สุด เครื่องมือโอเพนซอร์ซ เพื่อปรับแบบจำลองภาษาขนาดใหญ่ให้สอดคล้องกับค่านิยมของมนุษย์
แพลตฟอร์มนี้รองรับคำถามประเภทการให้คะแนน การจัดอันดับ ข้อความ ป้ายกำกับเดียว หลายป้ายกำกับ และคำถามแบบช่วง ทีมสามารถผสมผสานและจับคู่เทมเพลตเหล่านี้เพื่อสร้างคำถามได้ เวิร์กโฟลว์การใส่คำอธิบายประกอบแบบกำหนดเอง ซึ่งสามารถนำไปปรับใช้ได้แทบทุกกรณี ความยืดหยุ่นนี้หมายความว่าชุดข้อมูลเดียวสามารถรวบรวมข้อเสนอแนะได้หลายรูปแบบพร้อมกัน ช่วยประหยัดเวลาของผู้ให้ข้อมูลและเพิ่มความสมบูรณ์ของข้อมูล
สามารถนำเข้าและส่งออกชุดข้อมูลไปยัง Hugging Face Hub ได้โดยตรงผ่านทาง UI หรือ Python SDK การผสานรวมอย่างแน่นหนานี้ทำให้การควบคุมเวอร์ชันของโครงการคำอธิบายประกอบ การแบ่งปันชุดข้อมูลกับชุมชน หรือการดึงชุดข้อมูลโอเพนซอร์สยอดนิยมมาใช้เพื่อการทดลองอย่างรวดเร็วทำได้อย่างง่ายดาย การติดตั้งใช้งานบน Hugging Face Spaces เพียงคลิกเดียวก็ทำให้สามารถใช้งาน Argilla ได้อย่างเต็มรูปแบบภายในเวลาไม่ถึงห้านาที
Argilla SDK ช่วยให้วิศวกรควบคุมการสร้างชุดข้อมูล การจัดการบันทึก การบริหารผู้ใช้ และการส่งออกข้อมูลได้อย่างเต็มที่ ทุกสิ่งที่สามารถทำได้ในส่วนติดต่อผู้ใช้ (UI) สามารถเขียนสคริปต์ด้วย Python ได้เช่นกัน ทำให้สามารถสร้างไปป์ไลน์อัตโนมัติที่เชื่อมต่อเวิร์กโฟลว์การระบุคำอธิบายประกอบเข้ากับลูปการฝึกโมเดลได้ SDK รองรับ Python เวอร์ชัน 3.9 ถึง 3.13 และ ไพแดนติก เวอร์ชัน 2.
Argilla ช่วยให้ทีมงานสามารถแนบคำทำนายจากโมเดลเป็นคำแนะนำลงในระเบียนข้อมูลได้ ทำให้ผู้ติดป้ายกำกับสามารถยอมรับ แก้ไข หรือปฏิเสธคำแนะนำเหล่านั้นได้ แทนที่จะต้องติดป้ายกำกับใหม่ทั้งหมด เมื่อรวมกับการค้นหาเชิงความหมายและตัวกรองเมตาเดตาแล้ว จะช่วยลดเวลาในการติดป้ายกำกับได้อย่างมาก ผู้ติดป้ายกำกับจึงสามารถมุ่งเน้นความพยายามไปที่ระเบียนข้อมูลที่สำคัญที่สุด แทนที่จะทำงานกับข้อมูลแบบสุ่มสี่สุ่มห้า

เวอร์ชัน 2.5 ได้เพิ่มการรองรับ webhook ซึ่งช่วยให้ระบบภายนอกสามารถตอบสนองต่อเหตุการณ์ภายใน Argilla ได้แบบเรียลไทม์ เมื่อเรคอร์ดเสร็จสมบูรณ์หรือชุดข้อมูลเปลี่ยนแปลง Argilla สามารถเรียกใช้กระบวนการถัดไป เช่น งานฝึกอบรมใหม่หรือการตรวจสอบคุณภาพได้ สิ่งนี้ทำให้ Argilla กลายเป็นส่วนประกอบที่มีชีวิตในไปป์ไลน์ MLOps ในสภาพแวดล้อมการผลิต แทนที่จะเป็นเพียงเครื่องมือการระบุคำอธิบายประกอบแบบสแตนด์อโลน
แผนราคาของ Argilla
| ชื่อแผน | ราคา | ข้อจำกัดและคุณสมบัติหลัก |
|---|---|---|
| โอเพนซอร์ส (ติดตั้งและใช้งานเอง) | $0 | ผู้ใช้ไม่จำกัดจำนวน ชุดข้อมูลไม่จำกัดจำนวน เข้าถึงฟังก์ชันการทำงานได้อย่างเต็มรูปแบบ ติดตั้งใช้งานบน Docker หรือเซิร์ฟเวอร์ภายในเครื่องก็ได้ |
| การกอดใบหน้าอย่างต่อเนื่อง | เริ่มต้นที่ $ 5 / เดือน | พื้นที่จัดเก็บข้อมูลถาวร ฮาร์ดแวร์ที่ได้รับการอัปเกรด เหมาะสำหรับทีมขนาดเล็ก |
| บริษัทฮักกิ้งเฟซสเปซ | แผ่นกระดาษ | ฮาร์ดแวร์เฉพาะ, ระบบ SSO สำหรับองค์กร, เครือข่ายส่วนตัว |
การติดตั้งใช้งาน Argilla บนโครงสร้างพื้นฐานของคุณเอง
สำหรับทีมที่มีข้อกำหนดด้านการกำกับดูแลข้อมูลที่เข้มงวด Argilla สามารถติดตั้งใช้งานได้อย่างสมบูรณ์บนโครงสร้างพื้นฐานส่วนตัวโดยใช้ Docker ซึ่งจะช่วยให้ควบคุมได้อย่างเต็มที่ในส่วนของระบบจัดเก็บข้อมูล (PostgreSQL บวก Elasticsearch หรือ OpenSearch) การตรวจสอบสิทธิ์ผู้ใช้ และการเข้าถึงเครือข่าย เซิร์ฟเวอร์รองรับการกำหนดค่าตัวแปรสภาพแวดล้อมสำหรับผู้ให้บริการ OAuth2, SSL และการกำหนดเส้นทาง URL พื้นฐาน
Helm chart พร้อมใช้งานสำหรับการใช้งาน Kubernetes ทำให้การขยายขีดความสามารถในการระบุข้อมูลควบคู่ไปกับโครงสร้างพื้นฐาน ML ที่มีอยู่ทำได้ง่าย เนื่องจากแพลตฟอร์มนี้ได้รับอนุญาตภายใต้ MIT license จึงไม่มีค่าธรรมเนียมการใช้งาน ข้อจำกัดจำนวนที่นั่ง หรือข้อจำกัดด้านฟีเจอร์ใดๆ สำหรับอินสแตนซ์ที่โฮสต์เอง
ข้อดีและข้อเสีย
- สมบูรณ์ฟรีและโอเพ่นซอร์ส
- การผสานรวม Hugging Face Hub อย่างลงตัว
- ออกแบบมาโดยเฉพาะสำหรับเวิร์กโฟลว์ RLHF
- แม่แบบคำถามและช่องกรอกข้อมูลที่ยืดหยุ่น
- SDK Python แบบครบวงจรสำหรับการทำงานอัตโนมัติ
- ไม่จำกัดจำนวนผู้ใช้และชุดข้อมูล
- ไม่มีตัวเลือกบริการโฮสติ้งคลาวด์แบบจัดการโดยผู้ให้บริการ
- ทีมงานหลักดั้งเดิมได้ลาออกไปแล้ว
- ไม่มีการใส่คำอธิบายประกอบเสียง/วิดีโอในตัว
- การติดตั้งต้องใช้ความรู้ทางเทคนิค
อาร์จิลลาและระบบนิเวศใบหน้าที่กอดรัด
Argilla เข้าร่วม Hugging Face ในปี 2024 ตอกย้ำบทบาทของมันในฐานะเลเยอร์การใส่คำอธิบายประกอบหลักภายในแพลตฟอร์มโอเพนซอร์สที่ใหญ่ที่สุด AI การเข้าซื้อกิจการครั้งนี้หมายถึงการบูรณาการที่แน่นแฟ้นยิ่งขึ้นกับ Hugging Face Datasets, Transformers และ Hub ผู้ใช้สามารถส่งชุดข้อมูลที่มีคำอธิบายประกอบไปยัง Hub ได้โดยตรงเพื่อการควบคุมเวอร์ชันและการแบ่งปันในชุมชน
ไลบรารี Distilabel จากทีมเดียวกันนี้ช่วยเสริมการทำงานของ Argilla โดยการสร้างข้อมูลสังเคราะห์ที่ผู้เชี่ยวชาญด้านการระบุข้อมูลจะทำการคัดกรองต่อไป เครื่องมือเหล่านี้ทำงานร่วมกันสร้างวงจรป้อนกลับที่การสร้างข้อมูลสังเคราะห์และการตรวจสอบโดยมนุษย์ดำเนินไปพร้อมกัน ซึ่งช่วยเร่งการสร้างชุดข้อมูลสำหรับ โครงการ LLM โดยไม่สูญเสียคุณภาพ
ทางเลือกที่ดีที่สุดสำหรับข้าวอาร์จิลลา
| แพลตฟอร์มการติดป้ายกำกับข้อมูลและการรับฟังความคิดเห็นจากมนุษย์ | โอเพนซอร์สและติดตั้งเองได้ | LLM/RLHF โฟกัส |
|---|---|---|
| สตูดิโอฉลาก | ✅ โอเพนซอร์ส และมีเวอร์ชันสำหรับองค์กรด้วย | คำอธิบายประกอบมีจำกัด ส่วนใหญ่เป็นคำอธิบายทั่วไป |
| ตัวอย่างมหัศจรรย์ | ❌ อนุญาตเฉพาะเชิงพาณิชย์เท่านั้น | ระดับปานกลางถึงสูง เหมาะสำหรับการเรียนรู้ NLP เชิงรุก |
| กล่องฉลาก | ❌ บริการ SaaS เฉพาะในแพ็กเกจแบบชำระเงินเท่านั้น | เน้นด้านคอมพิวเตอร์วิชั่นในระดับปานกลางและกว้าง |
