🪐 项目模板介绍
Weasel项目模板以前称为spaCy项目,帮助用户管理和共享各种用例和领域的端到端工作流程。通过这些模板,用户可以协调自定义管道的训练、打包和服务。用户可以从克隆预定义项目模板开始,根据需求进行调整,加载自己的数据,训练管道,以Python包的形式导出,上传结果到远程存储,并与团队分享。
项目模板概述
Weasel项目模板提供了一整套便利的工具来帮助各种领域的用户开展自然语言处理项目。以下是模板的主要类别:
- 管道(pipelines): 适用于在不同语料库上训练包含不同组件的NLP管道。
- 教程(tutorials): 以端到端形式展示特定NLP用例的处理流程。
- 集成(integrations): 展示与第三方库和工具的集成,用于数据和实验管理、以及模型的生产部署。
- 基准(benchmarks): 用于重现基准测试,生成易于与其他系统或spaCy版本比较的量化结果。
- 实验(experimental): 包含前沿的实验性工作流程,供用户自行尝试。
🚀 快速入门
用户可以通过weasel
命令行接口(CLI)或spacy project
别名来使用项目模板。一般的工作流程如下:
- 克隆项目模板: 选择需要的模板并克隆。
python -m weasel clone tutorials/ner_fashion_brands
- 安装项目所需环境: 进入项目目录并安装相关依赖。
cd ner_fashion_brands python -m pip install -r requirements.txt
- 获取资源(数据、权重等): 根据
project.yml
文件中的定义获取所需资源。python -m weasel assets
- 运行命令: 执行
project.yml
中定义的命令。python -m weasel run preprocess
- 运行多步骤工作流: 依次执行多个步骤。
python -m weasel run all
- 调整模板: 针对特定用例进行模板调整,加载自己的数据,调整设置和模型,并将结果分享给团队。
👷♀️ 仓库维护
为了保持项目模板及其文档的更新,仓库中包含了几个维护脚本:
- update_docs.py: 更新所有自动生成的文档,仅替换自动生成的部分,不影响之前或之后的定制内容。
- update_category_docs.py: 更新分类目录中的自动生成
README.md
,列出可用项目模板。 - update_configs.py: 更新并自动填充仓库中包含的
config.cfg
文件,确保在spaCy变化时配置文件保持更新。 - update_projects_jsonl.py: 在给定根目录下更新
projects.jsonl
文件。
通过这些工具,Weasel项目模板帮助用户在自然语言处理应用领域中更高效地构建、管理和共享项目工作流程。