Argilla
一起处理数据,让你的模型输出更好!
Argilla 是一个为 AI 工程师和领域专家设计的协作工具,旨在帮助他们为项目构建高质量的数据集。
如果你想快速入门,在 Hugging Face Spaces 上部署 Argilla。感兴趣,想了解更多?请阅读我们的文档。
或者,通过 Hugging Face 账户登录,体验 Argilla 的用户界面:
为什么要使用 Argilla?
Argilla 可用于为各种 AI 项目收集人类反馈,如传统的 NLP(文本分类、命名实体识别等)、大型语言模型(RAG、偏好调整等)或多模态模型(文本到图像等)。Argilla 的编程化方法让你可以构建用于持续评估和模型改进的工作流。Argilla 的目标是通过快速迭代正确的数据和模型,确保你的数据工作取得成果。
通过数据质量提升 AI 输出质量
计算资源昂贵,输出质量至关重要。我们帮助你专注于数据,从根源上解决这两个问题。Argilla 帮助你实现并保持高质量标准,这意味着你可以提高 AI 输出的质量。
掌控你的数据和模型
大多数 AI 工具都是黑箱操作,而 Argilla 不同。我们相信你应该是你数据和模型的主人。这就是为什么我们为你的团队提供了所有以最佳方式管理数据和模型的工具。
通过快速迭代正确的数据和模型提高效率
数据收集是一个耗时的过程。Argilla 提供的工具可以让你以更具互动性的方式处理数据,这意味着你可以快速、轻松地通过过滤器、AI 反馈建议和语义搜索对数据进行标注。这样你就可以专注于训练模型并监控其性能。
🏘️ 社区
我们是一个开源社区驱动的项目,期待听到你的声音。以下是参与社区的一些方式:
-
社区见面会:参加我们每两周一次的活动,聆听或进行演讲。
-
Discord:在 #argilla-distilabel-general 和 #argilla-distilabel-help 频道中获得来自社区的直接支持。
-
路线图:计划会变,但我们乐于与社区讨论,欢迎你参与。
人们使用 Argilla 构建了什么?
开源数据集和模型
- 清洗后的 UltraFeedback 数据集用于微调 Notus 和 Notux 模型。原始的 UltraFeedback 数据集使用 Argilla UI 过滤器进行整理,以查找并报告原始数据生成代码中的一个错误。基于此数据整理过程,Argilla 构建了这个 UltraFeedback 数据集的新版本,并对 Notus 进行了微调,在多个基准测试中表现优于 Zephyr。
- distilabeled Intel Orca DPO 数据集用于微调 改进的 OpenHermes 模型。该数据集通过在 Argilla 中结合人工整理和 distilabel 的 AI 反馈构建而成,生成了改进版本的 Intel Orca 数据集,并在多个基准测试中表现优于基于原始数据集微调的模型。
示例用例
来自 红十字会、Loris.ai 和 Prolific 的 AI 团队使用 Argilla 改善了 AI 项目的质量和效率。他们在我们的AI 社区见面会中分享了他们的经验。
- 善用 AI:红十字会的演讲展示了红十字会的领域专家和 AI 团队如何通过分类和重定向来自乌克兰危机难民的请求,简化红十字会的支持流程。
- 客户支持:Loris 见面会展示了他们的 AI 团队如何利用无监督和少样本对比学习,帮助他们快速验证并获得大量多标签分类器的标注样本。
- 研究项目:Prolific 的展示宣布了他们与我们平台的集成。他们使用该平台主动分发数据收集项目给标注工作者,这使得 Prolific 能够快速高效地收集用于研究项目的高质量数据。
👨💻 快速开始
安装
首先!你可以通过 pip 安装 SDK:
pip install argilla
之后,你需要部署 Argilla 服务器。最简单的方法是通过我们免费的 Hugging Face Spaces 部署集成进行部署。
要使用客户端,你需要导入 Argilla
类并使用 API URL 和 API 密钥实例化它。
import argilla as rg
client = rg.Argilla(api_url="https://[your-owner-name]-[your_space_name].hf.space", api_key="owner.apikey")
创建你的第一个数据集
现在我们可以通过一个简单的文本分类任务来创建一个数据集。首先,你需要定义数据集设置。
settings = rg.Settings(
guidelines="将评论分类为正面或负面。",
fields=[
rg.TextField(
name="review",
title="评论中的文本",