#spaCy

spaCy 是一个高级自然语言处理库，支持Python和Cython，适用于实际产品开发。它提供预训练管道，支持70种以上语言的分词和训练，拥有最先进的速度和神经网络模型，可用于词性标注、句法解析、命名实体识别、文本分类等多种任务。spaCy 同时支持多任务学习和使用预训练变换器，如BERT，适合生产环境下的训练系统，模型打包，部署和工作流管理，是商业开源软件，遵循MIT许可证。

spacy-llm - spaCy与大语言模型整合的NLP组件

spacy-llmspaCyLarge Language ModelsNLPOpenAIGithub开源项目

该模块将大型语言模型（LLMs）集成到spaCy中，实现了快速原型设计和提示生成，无需训练数据即可输出可靠的NLP结果。支持OpenAI、Cohere、Anthropic、Google PaLM、Microsoft Azure AI等API，并兼容Hugging Face上的开源LLMs，如Falcon、Dolly、Llama 2等。还支持LangChain，提供命名实体识别、文本分类、情感分析等多种现成任务。用户可通过spaCy的注册表轻松实现自定义功能。该模块结合LLM的强大功能与spaCy的成熟基础，提供灵活高效的NLP解决方案。

spacy-transformers - 在 spaCy 中使用 BERT、XLNet 和 GPT-2 等预训练转换器

spaCytransformersBERTXLNetGPT-2Github开源项目

spacy-transformers通过Hugging Face的transformers实现预训练模型如BERT、XLNet和GPT-2的集成，提升spaCy的功能。支持多任务学习、转换器输出自动对齐等，兼容Python 3.6以上版本，需要PyTorch v1.5+和spaCy v3.0+。

spacy-stanza - 多语言自然语言处理工具，结合SpaCy和Stanza的强大功能

spaCyStanza处理管线自然语言处理模型Github开源项目

spacy-stanza 是一个包装 Stanza 库的软件，使得在 SpaCy 管道中使用斯坦福模型变得更加容易。其功能包括多语言词性标注、形态分析、词干提取和依存解析，支持68种语言，还为部分语言提供命名实体识别功能。用户可以通过下载预训练的 Stanza 模型，通过 spacy_stanza.load_pipeline() 加载并处理文本。这个工具还允许添加自定义组件，结合 SpaCy 的词汇属性、规则匹配和可视化功能，提供了强大的自然语言处理解决方案。

prodigy-openai-recipes - 结合OpenAI大语言模型与本地Prodigy实例，通过零次和少次学习技术，高效构建高质量数据集的方法

ProdigyspaCyOpenAINERtextcatGithub开源项目

该项目展示了如何结合OpenAI大语言模型与本地Prodigy实例，通过零次和少次学习技术，高效构建高质量数据集。用户可以使用该方法进行命名实体识别和文本分类等任务，手动校正模型预测结果以提高数据准确性。项目提供详细的设置指南，帮助用户在本地安装和运行必要的软件，并配置API密钥。通过高效的数据注解流程和灵活的模板设置，用户能够快速获得金标准数据，并训练符合特定需求的监督模型。

scispacy - 科学文献处理的定制spaCy管道与模型

安装方式Python 3.6Github开源项目scispaCyspaCy安装

scispaCy项目提供了适用于科学文献处理的定制化spaCy管道和模型，包括基于生物医学数据训练的分词器、词性标注器和实体识别模型。用户可轻松安装和使用这些工具，项目支持多种NER模型和实体链接器，适合不同任务使用，并提供详细的安装和使用指南。

spacy-models - spaCy自然语言处理模型下载与安装指南

spaCyNLP模型安装依赖Github开源项目

此页面详细介绍了spaCy模型的下载、安装和使用方法。内容涵盖模型命名规范、版本管理以及旧版本支持。提供用于文本处理的多种模型，包括标签、解析、命名实体识别和句子分割。本页面还确保模型具备快速部署与透明管理的特性。

pytextrank - 基于图算法的Python自然语言处理与知识图谱工具

PyTextRank文本摘要自然语言处理spaCy图算法Github开源项目

PyTextRank 是一个Python实现的TextRank算法库，作为spaCy管道扩展，专注于图形化自然语言处理和知识图谱应用。它支持短语提取、低成本抽取式摘要，方便将非结构化文本转化为结构化信息。

projects - 高效管理和分享端到端工作流程的工具

WeaselspaCyNLP管道项目模板机器学习Github开源项目

Weasel项目模板提供了管理和分享各类端到端工作流程的便捷方式，可克隆预定义模板，调整以满足具体需求，进行数据加载和管道训练，导出为Python包并上传到远程存储，与团队共享结果。该项目还包括与第三方库和工具的集成模板，以及性能基准模板。

TextDescriptives - 使用spaCy组件进行多维度文本分析

TextDescriptivesspaCyPython库文本指标APIGithub开源项目

TextDescriptives是一个基于Python的库，通过spaCy v.3管道组件和扩展计算多种文本指标。包括详细文档和Jupyter notebook教程，方便用户上手和使用功能。最新2.0版本引入全新API和组件，支持无代码提取指标的web应用。用户可设置不同参数快速提取文本指标，并将结果导出为Pandas DataFrame或字典。适合文本分析入门者，也为高级用户提供深度定制的选项。

medspacy - 临床NLP工具库，提供多语言支持和多功能文本处理

medspaCyspaCy临床文本处理自然语言处理医学NLPGithub开源项目

medspacy是一款基于spaCy框架的临床NLP工具库，提供句子分割、上下文分析、属性识别和章节检测等模块化功能。它适用于临床文本的处理和分析，支持多语言并鼓励扩展更多语言规则。各模块可独立使用，包括概念提取、实体后处理和数据可视化等功能。

SceneGraphParser - Python工具包，用于解析自然语言句子生成场景图

SceneGraphParser依赖解析自然语言处理spaCy图像表示Github开源项目

SceneGraphParser基于依存解析，通过纯Python实现，将自然语言句子解析为场景图。图中的节点为名词（包含修饰词如限定词或形容词），边为名词之间的关系。与斯坦福场景图解析器不同，SceneGraphParser具有易用的用户界面和易配置的设计。目前仅支持spaCy作为后台。工具提供了简单的`parse`函数调用和表格式结果展示，便于集成到任何基于Python的项目中。项目正在开发中，所有API可能会有变动，欢迎提交问题或提供帮助。

contextualSpellCheck - 使用BERT模型的上下文拼写检查和纠错工具

contextualSpellCheckspelling错误BERT模型pip安装spaCyGithub开源项目

contextualSpellCheck项目使用BERT模型进行上下文拼写检查和纠错，能有效识别和修正非词错误。该工具易于通过pip安装，并可以集成到spaCy管道中。项目支持多种语言和API调用，提供了丰富的扩展方法和自定义选项，方便开发者获取拼写检查和纠错数据。社区贡献代码和优化建议也受到欢迎，进一步提升项目性能和功能。

spacy-course - 基于spaCy的高级自然语言处理免费在线课程

spaCy自然语言处理在线课程开源框架交互式学习Github开源项目

课程内容从NLP基础到高级主题,包括使用规则和机器学习方法构建自然语言理解系统。采用开源框架spaCy,支持多种语言,并提供交互式编程环境。适合自学者免费学习使用,掌握实用的自然语言处理技能。

spacy-llm: 集成大型语言模型到结构化NLP管道中

2024年08月30日

spacy-transformers: 在spaCy中使用预训练Transformer模型

2024年08月30日

Prodigy OpenAI Recipes:结合零样本和少样本学习提高注释效率

2024年08月31日

高级自然语言处理与spaCy:一门免费在线课程介绍

3 个月前

spaCy学习资源汇总 - 工业级自然语言处理Python库

3 个月前

spacy-llm学习资料汇总 - 将大型语言模型整合到结构化NLP流程中

3 个月前

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com