项目简介:Prodi.gy OpenAI Recipes
Prodi.gy OpenAI Recipes 是一个集成人工智能模型的强大工具集,旨在帮助用户高效地创建高质量数据集,以训练定制化的监督模型。该项目通过结合零样本和少样本文本学习技术以及少量的人工标注,实现最大限度提升数据集获取效率。项目使用来自 OpenAI 的大型语言模型进行初步预测,然后利用 Prodi.gy 平台对这些预测进行审核和优化,从而快速获得金标准数据集。
项目现状
需要注意的是,这个代码库中的配方现已迁移至 Prodi.gy,并将在 spacy-llm 支持下获得升级,提供更优质的提示和多种语言模型供应商的支持。因此,该项目作为一个独立代码库已被存档,我们将专注于直接在 spaCy 和 Prodigy 上进行维护。
项目功能
命名实体识别(NER)
项目提供了一种称为 ner.openai.correct
的命名实体识别配方。该配方使用大语言模型(如 GPT-3)的预测结果,让用户标记或手动修正它们,从而有效收集金标准数据集。用户可以为模型设置要预测的实体标签,还可以选择为少样本学习添加示例。
文本分类(Textcat)
textcat.openai.correct
配方则用于文本分类,旨在加速文本标注过程,并为每个选择提供一个“理由”。可处理二元、多类别和多标签文本分类任务。通过将适当数量的标签传递给参数,可以对文本进行细化分类。
术语提取(Terms)
terms.openai.fetch
配方可以基于查询从大语言模型中生成术语和短语。这些术语可以被审查并转化为模式文件,以帮助后续的标注工作。比如,可以用来检测文本中的滑板技巧术语。
提示A/B测试
项目还提供了 ab.openai.prompts
配方,用于对比两个不同提示的输出质量。用户可以设计相关模板来引导大语言模型生成不同风格的文本,通过该工具进行盲测和比较。
项目的应用场景
这个项目适合于需要充分运用大语言模型学习能力,但又希望通过人工审核和调整以获得高可靠性数据的场景。例如自然语言处理中的命名实体识别、文本分类、术语提取等任务。在使用这些工具时,用户可以通过这些自动化支架快速积累数据,进而训练出小规模却精准的模型,以满足不同业务和研究需求。
综上所述,Prodi.gy OpenAI Recipes 是在数据标注效率和模型精度之间取得最佳平衡的重要工具包。它在活跃开发中,未来将依托 Prodi.gy 和 spaCy 的进步不断提升其功能与性能。