🪐 项目模板
Weasel,之前称为 spaCy projects,让你可以管理和分享 不同用例和领域的端到端工作流程,并且可以协调训练、打包和部署你的自定义管道。你可以通过克隆一个预定义的项目模板来开始,根据你的需求进行调整,加载你的数据,训练一个管道,把它导出为Python包,将你的输出上传到远程存储,并与团队分享你的成果。
⚠️ Weasel项目模板需要 Weasel,它默认包含在spaCy v3.7+中。你可以通过pip安装它,
pip install weasel
或者通过conda安装,conda install weasel -c conda-forge
。请确保使用一个干净的虚拟环境。查看
master
分支以获取该仓库的先前版本。
🗃 分类
名称 | 描述 |
---|---|
pipelines | 用于在不同语料库上使用不同组件训练NLP管道的模板。 |
tutorials | 用于从头到尾完成特定NLP用例的模板。 |
integrations | 显示与第三方库和工具集成的模板,用于管理你的数据和实验,迭代演示和原型,并将你的模型投入生产。 |
benchmarks | 用于重现我们的基准并生成易于与其他系统或spaCy版本进行比较的可量化结果的模板。 |
experimental | 实验性工作流程和其他前沿内容,需自行承担风险。 |
🚀 快速启动
项目可以通过weasel
CLI使用,或通过spacy project
别名来使用。要了解更多关于一个命令的信息,可以添加--help
。详细的说明请参阅Weasel文档或spaCy项目使用指南。
- 克隆你要使用的项目模板。
python -m weasel clone tutorials/ner_fashion_brands
- 安装任何项目需求。
cd ner_fashion_brands python -m pip install -r requirements.txt
- 获取在
project.yml
中定义的资源(数据、权重)。python -m weasel assets
- 运行在
project.yml
中定义的命令。python -m weasel run preprocess
- 按顺序运行多个步骤的工作流程。
python -m weasel run all
- 调整模板以适应你的特定用例,加载你自己的数据,调整设置和模型,并与团队分享结果。
👷♀️仓库维护
为了保持项目模板及其文档的更新,此仓库包含了几个脚本:
脚本 | 描述 |
---|---|
update_docs.py | 更新给定根目录中的所有自动生成的文档。调用spacy project document 并仅替换自动生成部分,不会替换前后任何自定义内容。 |
update_category_docs.py | 更新类别目录中列出可用项目模板的自动生成的README.md 。 |
update_configs.py | 更新并自动填充仓库中包含的所有config.cfg 文件,类似于spacy init fill-config 。可用于保持随着spaCy的变化而更新配置。 |
update_projects_jsonl.py | 更新给定根目录中的projects.jsonl 文件。应在仓库的根目录级别使用。 |