Argilla 关键见解
什么是 Argilla?

粘土 是一个免费的开源数据标注和人工反馈平台,专为……而构建。 AI 需要创建高质量数据集的工程师和领域专家。Argilla 最初是作为独立工具开发的,现在已成为……的一部分。 拥抱脸 生态系统。它支持广泛的 AI 任务包括文本分类、命名实体识别、通过监督学习进行 LLM 微调以及 RLHF 偏好数据收集。
该平台使用Python SDK和基于浏览器的用户界面,允许团队使用筛选器对数据记录进行标记、评分、排名和审查。 AI Argilla 提供辅助建议和相似性搜索功能。它完全由用户自行托管,无需强制订阅,因此非常适合需要完全数据所有权和控制权的团队。Argilla 可在 Hugging Face Spaces 或 Docker 容器上运行,并支持程序化数据集管理,以实现持续的模型改进工作流程。
Argilla 简化了从人类反馈中收集强化学习所需的人类偏好数据的过程。标注者可以对单个提示的多个模型响应进行排序和评分,从而生成奖励模型训练所需的比较数据集。这使其成为最易于使用的工具之一。 开源工具 用于使大型语言模型与人类价值观保持一致。
该平台支持评分、排名、文本、单标签、多标签和跨度等多种题型。团队可以灵活组合这些模板来构建问题。 自定义标注工作流程 几乎适用于任何使用场景。这种灵活性意味着单个数据集可以同时捕获多种形式的反馈,从而节省标注员的时间并提高数据丰富度。
用户可以通过用户界面或 Python SDK 直接从 Hugging Face Hub 导入和导出数据集。这种紧密集成使得标注项目的版本控制、与社区共享数据集,以及引入常用的开源数据集进行快速实验都变得轻而易举。只需在 Hugging Face Spaces 上单击一下,即可在五分钟内运行完整的 Argilla 实例。
Argilla SDK 为工程师提供了对数据集创建、记录管理、用户管理和数据导出的全面控制。所有可在用户界面中完成的操作都可以用 Python 脚本实现,从而支持将标注工作流与模型训练循环连接起来的自动化流程。该 SDK 支持 Python 3.9 至 3.13 版本。 Pydantic v2.
Argilla 允许团队将模型预测结果作为建议附加到记录上,这样标注员就可以接受、修改或拒绝这些建议,而无需从头开始标注。结合语义搜索和元数据过滤器,这可以显著减少标注时间。标注员可以将精力集中在最重要的记录上,而不是盲目地处理数据。

2.5 版本引入了 Webhook 支持,允许外部系统实时响应 Argilla 内部发生的事件。当记录完成或数据集发生更改时,Argilla 可以触发下游流程,例如重新训练作业或进行质量检查。这使得 Argilla 成为生产 MLOps 流水线的实时组件,而不再是一个独立的标注工具。
Argilla 定价方案
| 计划名称 | Cost | 关键限制和功能 |
|---|---|---|
| 开源(自托管) | $0 | 用户数量不限,数据集数量不限,功能齐全,可部署在 Docker 或本地服务器上 |
| 拥抱脸部空间持续 | 每月$ 5起 | 持久存储、升级硬件,适合小型团队 |
| 拥抱脸部空间企业 | 定制化 | 专用硬件、组织单点登录、私有网络 |
在您自己的基础设施上部署 Argilla
对于数据治理要求严格的团队,Argilla 可以完全部署在基于 Docker 的私有基础设施上。这使得团队能够完全控制存储后端(PostgreSQL 加上 Elasticsearch 或 OpenSearch)、用户身份验证和网络访问。服务器支持 OAuth2 提供程序、SSL 和基本 URL 路由的环境变量配置。
Helm Charts 可用于 Kubernetes 部署,从而可以轻松地在现有机器学习基础设施的基础上扩展标注能力。由于该平台采用 MIT 许可证,因此自托管实例没有使用费、席位限制或功能限制。
利与弊
- 完全免费和开源。
- 原生 Hugging Face Hub 集成。
- 专为RLHF工作流程而设计。
- 灵活的问题和字段模板。
- 完整的Python自动化SDK。
- 用户和数据集数量不限。
- 没有托管云服务选项。
- 原核心团队已离开。
- 不支持原生音频/视频注释。
- 安装需要技术知识
土木香和拥抱脸生态系统
Argilla 于 2024 年加入 Hugging Face,巩固了其作为最大开源项目 Hugging Face 中首选标注层的地位。 AI 社区。此次收购意味着与 Hugging Face Datasets、Transformers 和 Hub 的更紧密集成。用户可以直接将带标注的数据集推送到 Hub,以便进行版本控制和社区共享。
同一团队开发的 Distilabel 库与 Argilla 相辅相成,它能够生成合成数据,供标注人员进行整理。这些工具共同构成了一个反馈循环,合成数据生成和人工验证并行运行,从而加速了数据集的创建。 法学硕士项目 在不牺牲质量的情况下。
