触手可及的开源自然语言增强工具。
浏览bricks以找到适合您项目的宝贵资源;例如,使用句子复杂度估计、情感分析等功能丰富您的文本。
目录
为什么选择bricks?
我们的目标是构建一个现成的自然语言增强库,可以在任何项目中使用,也可以直接在我们的主要项目refinery中使用。我们构建bricks
是为了让开发人员更容易构建更好的产品。这就是名称的由来。bricks
是一个库,不是指您在存储库中pip install
它,而是您可以从在线平台复制粘贴代码。
演示
点击图片或此处观看演示。
什么是分类器、提取器和生成器?
我们通常将它们总结为该存储库中的模块。
分类器
是将给定文本归类到特定类别的模块。例如,将文本分类为新闻
或博客
的模块会放在这个文件夹中。它也可以用于增强,例如检测语言等。提取器
是从给定文本中检索特定信息的模块。例如,提取文本作者的模块会放在这个文件夹中。生成器
基于给定文本创建新内容,或为refinery创建预定义内容的过滤集。例如,将一种语言翻译成另一种语言的模块就是一个生成器。
模块结构
每个模块都有一个具有以下结构的文件夹:
__init__.py
:如果模块可以作为脚本执行,此文件包含入口点。README.md
:模块的描述,在平台上模块详情页面中显示。code_snippet_refinery.md
:基于SpaCy输入的显示代码片段。这在模块详情页面中显示。code_snippet_common.md
:在模块详情页面上显示的适用于任何Python环境的代码片段。这在模块详情页面中显示。config.py
:用于同步此存储库与在线平台的配置脚本。
如果您想添加新模块,请查看我们的贡献指南。
入门
您可以在bricks中访问此存储库的模块。如果您想自己托管模块,可以按照以下步骤操作。
- 克隆此存储库
- (可选)创建虚拟环境
- 安装依赖项(
pip install -r requirements.txt
) - 运行FastAPI服务器(
uvicorn api:api
) - 访问
http://localhost:8000/docs
查看文档
贡献
我们会持续将添加到此存储库中的模块添加到在线平台。如果您想添加自己的模块,请遵循贡献指南。如果您有任何问题,随时在Discord上与我们联系。
如果此存储库的内容对您有帮助,请留下星标⭐️。另外,请务必查看refinery。
refinery
查看我们的主要产品refinery,这是另一个开源项目,可帮助您扩展、评估和维护训练数据。您可以直接在refinery中使用bricks中的模块。
定期更新和通讯
我们会定期更新bricks,添加新模块(我们的目标是每周添加两个或更多模块)。如果您想及时了解最新情况,可以订阅我们的通讯。
许可证
本存储库采用Apache许可证2.0版。查看许可证文件的副本。