Argilla peamised teadmised
Mis on Argilla?

Savi on tasuta ja avatud lähtekoodiga andmete märkimise ning inimeste tagasiside platvorm, mis on loodud AI insenerid ja valdkonnaeksperdid, kes peavad looma kvaliteetseid andmekogumeid. Algselt eraldiseisva tööriistana välja töötatud Argilla on nüüd osa Kallistav nägu ökosüsteemi. See toetab laia valikut AI ülesanded, sealhulgas teksti klassifitseerimine, nimetatud üksuste tuvastamine, LLM-i peenhäälestamine juhendatud õppe abil ja RLHF-i eelistusandmete kogumine.
Platvorm kasutab Pythoni SDK-d ja brauseripõhist kasutajaliidest, mis võimaldab meeskondadel filtrite abil andmekirjeid sildistada, hinnata, järjestada ja üle vaadata. AI abistatud soovitused ja sarnasuse otsing. Argilla on täielikult ise hostitud ilma kohustusliku tellimuseta, mistõttu sobib see ideaalselt meeskondadele, kes vajavad täielikku andmete omandiõigust ja kontrolli. See töötab Hugging Face Spaces'i või Dockeri konteinerites ja toetab programmilist andmekogumite haldamist pidevate mudeli täiustamise töövoogude jaoks.
Argilla lihtsustab inimeste eelistuste andmete kogumist tugevdusõppeks inimeste tagasiside põhjal. Annotaatorid saavad ühele ülesandele reastada ja hinnata mitut mudeli vastust, genereerides võrdlusandmekogumeid, mida on vaja preemiamudeli treenimiseks. See teeb sellest ühe kõige kättesaadavama. avatud lähtekoodiga tööriistad suurte keelemudelite ja inimlike väärtuste ühtlustamiseks.
Platvorm toetab hinnangu-, järjestus-, teksti-, ühe- ja mitmesildilise ning ulatusküsimuste tüüpe. Meeskonnad saavad neid malle omavahel kombineerida, et luua kohandatud märkuste töövood mis sobivad praktiliselt igale kasutusjuhtumile. See paindlikkus tähendab, et üks andmestik suudab korraga jäädvustada mitut tüüpi tagasisidet, säästes annotaatori aega ja parandades andmete rikkust.
Andmekogumeid saab Hugging Face Hubist otse importida ja sinna eksportida kasutajaliidese või Pythoni SDK kaudu. See tihe integratsioon muudab versioonikontrolli ja märkuste projektide haldamise, andmekogumite jagamise kogukonnaga või populaarsete avatud lähtekoodiga andmekogumite kiireks katsetamiseks hõlpsaks. Ühe klõpsuga juurutamine Hugging Face Spacesis annab täieliku Argilla eksemplari tööle vähem kui viie minutiga.
Argilla SDK annab inseneridele täieliku kontrolli andmestike loomise, kirjete haldamise, kasutajate haldamise ja andmete ekspordi üle. Kõike, mida saab kasutajaliideses teha, saab ka Pythonis skriptida, võimaldades automatiseeritud torujuhtmeid, mis ühendavad märkuste töövooge mudeli treeningtsüklitega. SDK toetab Pythoni versioone 3.9 kuni 3.13 ja Pydantic v2.
Argilla võimaldab meeskondadel lisada mudeli ennustusi dokumentidele soovitustena, et annoteerijad saaksid neid nullist sildistamise asemel vastu võtta, muuta või tagasi lükata. Koos semantilise otsingu ja metaandmete filtritega vähendab see oluliselt annoteerimise aega. Annoteerijad keskenduvad oma pingutused kõige olulisematele dokumentidele, selle asemel et andmeid pimesi läbi töötada.

Versioonis 2.5 tutvustati veebikonksude tuge, mis võimaldab välistel süsteemidel Argilla sisestele sündmustele reaalajas reageerida. Kui kirje on valmis või andmestik muutub, saab Argilla käivitada allavoolu protsesse, näiteks ümberõppetöid või kvaliteedikontrolle. See muudab Argilla eraldiseisva annotatsioonitööriista asemel MLOps-i tootmisprotsessi reaalajas komponendiks.
Argilla hinnaplaanid
| Paketi nimetus | Maksma | Peamised piirangud ja omadused |
|---|---|---|
| Avatud lähtekoodiga (ise hostitud) | $0 | Piiramatu arv kasutajaid, piiramatud andmekogumid, täielik juurdepääs funktsioonidele, juurutamine Dockeris või kohalikus serveris |
| Näo kallistamise vahed püsivad | Alates 5 dollarist kuus | Püsiv salvestusruum, täiustatud riistvara, sobib väikestele meeskondadele |
| Hugging Face Spaces Enterprise | tava | Spetsiaalne riistvara, organisatsiooni SSO, privaatvõrgud |
Argilla juurutamine teie enda infrastruktuuril
Rangete andmehalduse nõuetega meeskondade jaoks saab Argilla Dockeri abil täielikult privaatsele infrastruktuurile juurutada. See annab täieliku kontrolli salvestusserverite (PostgreSQL pluss Elasticsearch või OpenSearch), kasutajate autentimise ja võrgule juurdepääsu üle. Server toetab keskkonnamuutujate konfigureerimist OAuth2 pakkujate jaoks, SSL-i ja baas-URL-i marsruutimist.
Kubernetes'i juurutuste jaoks on saadaval Helmi diagrammid, mis lihtsustab annotatsioonimahu skaleerimist koos olemasoleva masinõppe infrastruktuuriga. Kuna platvormil on MIT-litsents, puuduvad ise hostitud eksemplaridel kasutustasud, kohtade piirangud ega funktsioonipiirangud.
Plussid ja miinused
- Täiesti tasuta ja avatud lähtekoodiga.
- Natiivne Hugging Face Hubi integratsioon.
- RLHF-i töövoogude jaoks loodud.
- Paindlikud küsimuste ja väljade mallid.
- Täielik Pythoni SDK automatiseerimiseks.
- Piiramatud kasutajad ja andmekogumid.
- Hallatud pilvemajutuse võimalust pole.
- Algne põhimeeskond on edasi liikunud.
- Natiivseid heli-/videomärkusi pole.
- Seadistamine nõuab tehnilisi teadmisi
Argilla ja kallistava näo ökosüsteem
Argilla liitus Hugging Face'iga 2024. aastal, kinnistades oma rolli suurima avatud lähtekoodiga ettevõtte eelistatud annotatsioonikihina. AI kogukond. See omandamine tähendab tihedamat integratsiooni Hugging Face Datasetsi, Transformersi ja Hubiga. Kasutajad saavad versioonikontrolli ja kogukonnaga jagamise jaoks märkustega andmekogumeid otse Hubi saata.
Sama meeskonna Distilabel teek täiendab Argillat, genereerides sünteetilisi andmeid, mida annotaatorid seejärel kureerivad. Koos loovad need tööriistad tagasisideahela, kus sünteetiline genereerimine ja inimese poolt valideerimine toimivad kõrvuti, kiirendades andmestike loomist. LLM-projektid kvaliteeti ohverdamata.
Parimad Argilla alternatiivid
| Andmete annotatsioon ja inimeste tagasiside platvorm | Avatud lähtekoodiga ja ise hostitud | LLM/RLHF fookus |
|---|---|---|
| Labelistuudio | ✅ Avatud lähtekoodiga, ka ettevõtte tasemel | Piiratud, peamiselt üldised märkused |
| Ime | ❌ Ainult ärilitsents | Mõõdukas, tugev aktiivseks õppimiseks NLP |
| etiketikarp | ❌ SaaS ainult tasuliste pakettide puhul | Mõõdukas, laiem arvutinägemise fookus |
