Lykilatriði í Argilla
Hvað er Argilla?

Leir er ókeypis, opinn hugbúnaður fyrir gagnaskýringar og mannlega endurgjöf, smíðaður fyrir AI Verkfræðingar og sérfræðingar á sviðinu sem þurfa að búa til hágæða gagnasöfn. Argilla var upphaflega þróað sem sjálfstætt tól en er nú hluti af Faðmandi andlit vistkerfi. Það styður fjölbreytt úrval af AI Verkefni eins og flokkun texta, greining nafngreindra eininga, fínstilling á LLM með stýrðu námi og gagnasöfnun um RLHF-kjör.
Pallurinn notar Python SDK og vafraviðmót sem gerir teymum kleift að merkja, gefa einkunn, raða og fara yfir gagnafærslur með síum. AI aðstoðartillögur og líkindaleit. Argilla er alfarið sjálfhýst án skylduáskriftar, sem gerir það tilvalið fyrir teymi sem þurfa fulla eignarhald og stjórn á gögnum. Það keyrir á Hugging Face Spaces eða Docker gámum og styður forritaða gagnasafnsstjórnun fyrir stöðugar vinnuflæði til að bæta líkanið.
Argilla einfaldar söfnun gagna um mannlegar óskir til styrkingarnáms úr mannlegri endurgjöf. Skýringaraðilar geta raðað og metið svör margra líkana við einni fyrirspurn og þannig búið til samanburðargagnasöfn sem þarf til þjálfunar umbunarlíkana. Þetta gerir það að einu aðgengilegasta opinn hugbúnaður verkfæri til að samræma stór tungumálamódel við mannleg gildi.
Pallurinn styður mats-, röðunar-, textaspurningar, spurningar með einni merkingu, margar merkingar og spanspurningar. Teymi geta blandað saman þessum sniðmátum til að búa til sérsniðin skýringarvinnuflæði sem henta nánast hvaða notkunartilviki sem er. Þessi sveigjanleiki þýðir að eitt gagnasafn getur safnað mörgum gerðum endurgjafar í einu, sem sparar tíma fyrir skýringaraðila og eykur gagnasamanburð.
Hægt er að flytja gagnasöfn beint inn og út í Hugging Face Hub í gegnum notendaviðmótið eða Python SDK. Þessi nána samþætting gerir það auðvelt að stjórna útgáfum af skýringarverkefnum, deila gagnasöfnum með samfélaginu eða sækja vinsæl gagnasöfn með opnum hugbúnaði til að gera fljótlegar tilraunir. Með einum smelli á Hugging Face Spaces keyrir fullt Argilla-tilvik á innan við fimm mínútum.
Argilla SDK veitir verkfræðingum fulla stjórn á gagnasafnsgerð, færslustjórnun, notendastjórnun og gagnaútflutningi. Allt sem hægt er að gera í notendaviðmótinu er einnig hægt að forskrifa í Python, sem gerir kleift að sjálfvirknivæða verkflæði fyrir skýringar við þjálfunarlykkjur líkana. SDK styður Python 3.9 til 3.13 og ... Pydantic v2.
Argilla gerir teymum kleift að tengja líkanspár sem tillögur við færslur, þannig að skýringaraðilar geti samþykkt þær, breytt eða hafnað þeim frekar en að merkja þær frá grunni. Í bland við merkingarfræðilega leit og lýsigagnasíur dregur þetta verulega úr tímanum sem þarf að gera skýringar. Skýringaraðilar einbeita sér að þeim færslum sem skipta mestu máli í stað þess að vinna í gegnum gögnin í blindu.

Útgáfa 2.5 kynnti til sögunnar vefhook-stuðning, sem gerir ytri kerfum kleift að bregðast við atburðum innan Argilla í rauntíma. Þegar færsla er kláruð eða gagnasafn breytist getur Argilla ræst ferli eftir vinnslu eins og endurþjálfunarverk eða gæðaeftirlit. Þetta breytir Argilla í virkan hluta af framleiðslu MLOps-ferlinu frekar en sjálfstætt skýringartól.
Verðlagningaráætlanir Argilla
| Áætlun Nafn | Kostnaður | Lykiltakmarkanir og eiginleikar |
|---|---|---|
| Opinn hugbúnaður (sjálfhýst) | $0 | Ótakmarkaður notandi, ótakmarkað gagnasöfn, aðgangur að öllum eiginleikum, uppsetning á Docker eða staðbundnum netþjóni |
| Faðmandi andlitsrými viðvarandi | Frá $ 5 / mánuði | Varanleg geymsla, uppfærður vélbúnaður, hentugur fyrir lítil teymi |
| Hugging Face Spaces Enterprise | Sérhannað | Sérstakur vélbúnaður, skipulagsleg einskiptisupplýsingagjöf, einkanet |
Að setja upp Argilla á eigin innviði
Fyrir teymi með strangar kröfur um gagnastjórnun er hægt að setja Argilla upp að öllu leyti á einkareknum innviðum með Docker. Þetta veitir fulla stjórn á geymslubakendum (PostgreSQL ásamt Elasticsearch eða OpenSearch), notendavottun og netaðgangi. Þjónninn styður umhverfisbreytustillingar fyrir OAuth2 veitendur, SSL og grunn-URL leiðsögn.
Helm-töflur eru í boði fyrir Kubernetes-innleiðingar, sem gerir það einfalt að stækka skýringargetu samhliða núverandi vélanámskerfisinnviðum. Þar sem kerfið er með leyfi frá MIT eru engin notkunargjöld, takmarkanir á sætum eða eiginleikahlið á sjálfhýstum tilvikum.
Kostir og gallar
- Algjörlega ókeypis og opinn hugbúnaður.
- Innbyggð samþætting við Hugging Face Hub.
- Sérsmíðað fyrir RLHF vinnuflæði.
- Sveigjanleg spurninga- og reitasniðmát.
- Fullt Python SDK fyrir sjálfvirkni.
- Ótakmarkaðar notendur og gagnasöfn.
- Enginn stýrður skýhýsingarvalkostur.
- Upprunalega kjarnahópurinn hefur haldið áfram.
- Engar innbyggðar hljóð-/myndskýringar.
- Uppsetning krefst tæknilegrar þekkingar
Argilla og vistkerfið með faðmandi andlitum
Argilla gekk til liðs við Hugging Face árið 2024 og festi þar með stöðu þess sem aðal skýringarlagið innan stærsta opna hugbúnaðarins. AI samfélag. Þessi yfirtöku þýðir nánari samþættingu við Hugging Face gagnasöfn, Transformers og Hub. Notendur geta sent skýringargögn beint í Hub til að stjórna útgáfum og deila með samfélaginu.
Distilabel bókasafnið frá sama teymi bætir við Argilla með því að búa til tilbúin gögn sem skýringaraðilar safna síðan saman. Saman skapa þessi verkfæri endurgjöfarhringrás þar sem tilbúin myndun og mannleg staðfesting ganga hlið við hlið, sem flýtir fyrir gagnasafnsgerð fyrir... LLM verkefni án þess að fórna gæðum.
Bestu valkostir við Argilla
| Gagnaskýringar og mannleg endurgjöf | Opinn hugbúnaður og sjálfhýst | LLM/RLHF áhersla |
|---|---|---|
| Label Studio | ✅ Opinn hugbúnaður, einnig með fyrirtækjastigi | Takmarkaðar, aðallega almennar skýringar |
| Prodigy | ❌ Aðeins viðskiptaleyfi | Miðlungs, sterkt fyrir virkt nám í NLP |
| merki kassa | ❌ SaaS aðeins með greiddum áætlunum | Miðlungs, víðtækari áhersla á tölvusjón |
