Ключові висновки Argilla
Що таке Аргілла?

Глина це безкоштовна платформа для анотацій даних з відкритим кодом та зворотного зв'язку з людьми, створена для AI інженери та експерти в предметній області, яким потрібно створювати високоякісні набори даних. Спочатку розроблений як окремий інструмент, Argilla тепер є частиною Обіймати обличчя екосистема. Вона підтримує широкий спектр AI завдання, включаючи класифікацію тексту, розпізнавання іменованих сутностей, точне налаштування LLM за допомогою навчання з учителем та збір даних про переваги RLHF.
Платформа використовує Python SDK та інтерфейс користувача на основі браузера, який дозволяє командам маркувати, оцінювати, ранжувати та переглядати записи даних за допомогою фільтрів, AI допоміжні пропозиції та пошук подібностей. Argilla повністю розміщена на власному хостингу без обов'язкової підписки, що робить її ідеальною для команд, яким потрібне повне володіння даними та контроль над ними. Вона працює на контейнерах Hugging Face Spaces або Docker та підтримує програмне керування наборами даних для робочих процесів безперервного вдосконалення моделей.
Argilla спрощує збір даних про людські вподобання для навчання з підкріпленням на основі людського зворотного зв'язку. Анотатори можуть ранжувати та оцінювати кілька відповідей моделі на одне запитання, генеруючи набори даних для порівняння, необхідні для навчання моделі винагороди. Це робить його одним з найдоступніших. інструменти з відкритим кодом для узгодження моделей великих мов з людськими цінностями.
Платформа підтримує такі типи питань: рейтингові, ранжовані, текстові, з однією міткою, кількома мітками та питання з діапазоном. Команди можуть комбінувати ці шаблони для створення робочі процеси для створення користувацьких анотацій які підходять практично для будь-якого випадку використання. Ця гнучкість означає, що один набір даних може одночасно фіксувати кілька форм зворотного зв'язку, що заощаджує час анотатора та підвищує насиченість даних.
Набори даних можна імпортувати безпосередньо з Hugging Face Hub та експортувати до нього через інтерфейс користувача або Python SDK. Ця тісна інтеграція спрощує контроль версій проектів анотацій, обмін наборами даних зі спільнотою або завантаження популярних наборів даних з відкритим кодом для швидкого експериментування. Розгортання на Hugging Face Spaces одним клацанням миші дозволяє запустити повний екземпляр Argilla менш ніж за п'ять хвилин.
Argilla SDK надає інженерам повний контроль над створенням наборів даних, керуванням записами, адмініструванням користувачів та експортом даних. Все, що можна зробити в інтерфейсі користувача, також можна написати за допомогою сценаріїв на Python, що дозволяє автоматизувати конвеєри, які з'єднують робочі процеси анотацій із циклами навчання моделі. SDK підтримує Python версій від 3.9 до 3.13 та Піддантичний v2.
Argilla дозволяє командам додавати прогнози моделей як пропозиції до записів, щоб анотатори могли приймати, змінювати або відхиляти їх, замість того, щоб маркувати з нуля. У поєднанні із семантичним пошуком та фільтрами метаданих це значно скорочує час анотування. Анотатори зосереджують свої зусилля на записах, які мають найбільше значення, замість того, щоб сліпо обробляти дані.

У версії 2.5 було запроваджено підтримку вебхуків, що дозволяє зовнішнім системам реагувати на події всередині Argilla в режимі реального часу. Коли запис завершено або набір даних змінено, Argilla може запускати наступні процеси, такі як завдання перенавчання або перевірки якості. Це перетворює Argilla на активний компонент виробничого конвеєра MLOps, а не на окремий інструмент для анотацій.
Тарифні плани Argilla
| Назва плану | Коштувати | Ключові обмеження та особливості |
|---|---|---|
| Відкритий код (власний хостинг) | $0 | Необмежена кількість користувачів, необмежені набори даних, доступ до повного функціоналу, розгортання на Docker або локальному сервері |
| Обіймаючі простори обличчя | Від 5 $ / місяць | Постійне сховище, оновлене обладнання, підходить для невеликих команд |
| Hugging Face Spaces Enterprise | індивідуальні умови | Виділене обладнання, єдиний вхід для організації, приватна мережа |
Розгортання Argilla на власній інфраструктурі
Для команд із суворими вимогами до управління даними, Argilla може бути повністю розгорнута на приватній інфраструктурі за допомогою Docker. Це надає повний контроль над серверними сховищами (PostgreSQL плюс Elasticsearch або OpenSearch), автентифікацією користувачів та доступом до мережі. Сервер підтримує налаштування змінних середовища для постачальників OAuth2, SSL та маршрутизацію базових URL-адрес.
Для розгортань Kubernetes доступні діаграми Helm, що спрощує масштабування можливостей анотацій разом із існуючою інфраструктурою машинного навчання. Оскільки платформа ліцензована MIT, немає жодної плати за використання, обмежень на кількість місць або обмежень на функції для самостійно розміщених екземплярів.
За і проти
- Повністю безкоштовний та з відкритим вихідним кодом.
- Вбудована інтеграція Hugging Face Hub.
- Спеціально розроблений для робочих процесів RLHF.
- Гнучкі шаблони питань та полів.
- Повний Python SDK для автоматизації.
- Необмежена кількість користувачів та наборів даних.
- Немає опції керованого хмарного хостингу.
- Початковий основний склад команди перейшов далі.
- Немає вбудованих аудіо/відео анотацій.
- Налаштування вимагає технічних знань
Аргілла та екосистема обіймального обличчя
Argilla приєдналася до Hugging Face у 2024 році, закріпивши свою роль як основного шару анотацій у найбільшому проекті з відкритим кодом. AI спільнота. Це придбання означає тіснішу інтеграцію з наборами даних Hugging Face, Transformers та Hub. Користувачі можуть надсилати анотовані набори даних безпосередньо до Hub для контролю версій та обміну даними зі спільнотою.
Бібліотека Distilabel від тієї ж команди доповнює Argilla, генеруючи синтетичні дані, які потім курують анотатори. Разом ці інструменти створюють цикл зворотного зв'язку, де генерація синтетичних даних та перевірка людиною йдуть пліч-о-пліч, прискорюючи створення набору даних для Проєкти магістра права (LLM) без шкоди для якості.
Найкращі альтернативи Argilla
| Платформа для анотації даних та зворотного зв'язку з людьми | Відкритий код та власний хостинг | Фокус LLM/RLHF |
|---|---|---|
| Студія етикеток | ✅ Відкритий код, також має рівень Enterprise | Обмежена, переважно загальна анотація |
| Чудо | ❌ Тільки комерційна ліцензія | Помірний, сильний для активного навчання НЛП |
| коробка з етикетками | ❌ SaaS лише з платними планами | Помірний, ширший фокус комп'ютерного зору |
