scispacy

科学文献处理的定制spaCy管道与模型

安装方式 Python 3.6 Github 开源项目 scispaCy spaCy 安装

scispaCy项目提供了适用于科学文献处理的定制化spaCy管道和模型，包括基于生物医学数据训练的分词器、词性标注器和实体识别模型。用户可轻松安装和使用这些工具，项目支持多种NER模型和实体链接器，适合不同任务使用，并提供详细的安装和使用指南。

Github

文档

论文

介绍相关项目

scincl - 基于引用关系的科研论文嵌入模型

GithubHuggingfaceSciNCL句子转换器对比学习开源项目文档嵌入模型科研论文

SciNCL是一个基于BERT的预训练语言模型，专门用于生成科研论文的文档级嵌入。该模型利用论文间的引用关系进行对比学习，在S2ORC引用图上训练。SciNCL在SciDocs多项评估指标上表现优异，平均得分达81.9。研究人员可以通过Sentence Transformers或Transformers库方便地使用该模型，为科研文献分析和检索提供支持。

scikeras - Keras与Scikit-Learn的无缝集成工具

GithubKerasPythonSciKerasScikit-Learn开源项目机器学习

SciKeras是一个开源项目，旨在为Keras模型提供Scikit-Learn兼容的包装器。作为tf.keras.wrappers.scikit_learn的继任者，SciKeras保持API兼容性的同时，提供了更多功能。该项目支持TensorFlow，可通过pip轻松安装。SciKeras不仅提供详细文档，还有完整的迁移指南，方便用户从原有框架过渡。项目基于scikit-learn 1.4.1post1及以上版本和Keras 3.2.0及以上版本，为机器学习实践者提供了一个强大的集成工具。

scipipe - Go语言科学工作流库实现灵活高效的命令行管道

GithubGo语言SciPipe命令行工作流程库开源项目科学工作流

SciPipe是基于Go语言的科学工作流库，用于处理复杂命令行程序依赖关系。它支持构建灵活可重现的pipeline，具备并行执行、流式处理和自动文件命名功能。采用流程基础编程原理，SciPipe使工作流组件可重用且易于调试。主要应用于生物信息学和化学信息学领域，可高效管理大规模数据处理任务。

booknlp - 用于书籍和长文档的全面自然语言处理管道

Github事件标注实体识别开源项目指代消解文本分析自然语言处理

BookNLP是一个专门针对英文书籍和长文档的自然语言处理管道。它集成了多项功能,如词性标注、依存句法分析、实体识别、人物名称聚类、指代消解、引语说话人识别等。系统提供大小两种模型,可根据计算资源和精度需求灵活选择。BookNLP为文学文本分析和大规模文档处理提供了全面的语言学分析支持。

mindnlp - 开源自然语言处理与大语言模型框架

GithubMindNLPMindSpore大语言模型开源项目自然语言处理预训练模型

MindNLP是一个基于MindSpore的开源自然语言处理库，支持语言模型、机器翻译、问答系统、情感分析、序列标注和摘要生成等多种任务。该项目集成了BERT、Roberta、GPT2和T5等多种预训练模型，通过类似Huggingface的API简化了使用流程。用户可通过pypi或源代码安装该库，并支持包括Llama、GLM和RWKV在内的大型语言模型的预训练、微调和推理，非常适合研究者和开发人员构建和训练模型。

spacy-transformers - 在 spaCy 中使用 BERT、XLNet 和 GPT-2 等预训练转换器

BERTGPT-2GithubXLNetspaCytransformers开源项目

spacy-transformers通过Hugging Face的transformers实现预训练模型如BERT、XLNet和GPT-2的集成，提升spaCy的功能。支持多任务学习、转换器输出自动对齐等，兼容Python 3.6以上版本，需要PyTorch v1.5+和spaCy v3.0+。

spacy-llm - spaCy与大语言模型整合的NLP组件

GithubLarge Language ModelsNLPOpenAIspaCyspacy-llm开源项目

该模块将大型语言模型（LLMs）集成到spaCy中，实现了快速原型设计和提示生成，无需训练数据即可输出可靠的NLP结果。支持OpenAI、Cohere、Anthropic、Google PaLM、Microsoft Azure AI等API，并兼容Hugging Face上的开源LLMs，如Falcon、Dolly、Llama 2等。还支持LangChain，提供命名实体识别、文本分类、情感分析等多种现成任务。用户可通过spaCy的注册表轻松实现自定义功能。该模块结合LLM的强大功能与spaCy的成熟基础，提供灵活高效的NLP解决方案。

NLP-Natural-Language-Processing - 全面的自然语言处理资源与工具库

GithubNatural Language Processing开源项目数据科学机器学习深度学习计算机视觉

提供全面的自然语言处理（NLP）资源，涵盖数据集、前沿技术、课程、书籍推荐、GitHub代码示例及流行工具。涉及数据分析、知识图谱、模型与算法、情感分析、主题建模等任务的详细资料与学习路径。了解最新NLP动态，探索自然语言处理的应用潜力。

spark-nlp-workshop - Python和Scala自然语言处理实践资源

GithubPythonScalaSpark NLP开源项目机器学习自然语言处理

Spark NLP Workshop是一个开源项目，提供丰富的Jupyter笔记本和教程，展示如何在Python和Scala中使用Spark NLP进行自然语言处理。项目涵盖注释、评估和训练等方面，并包含适用于不同开发环境的Databricks笔记本。此资源库支持本地和Google Colab环境的简易设置，为数据科学家和开发者提供了实用的NLP工具和示例。

BioBERT-mnli-snli-scinli-scitail-mednli-stsb - 基于BioBERT的多领域句子嵌入模型

BioBERTGithubHuggingfacesentence-transformers嵌入向量开源项目模型自然语言处理语义相似度

该项目是一个基于BioBERT的句子嵌入模型，通过多个领域数据集训练而成。模型能将文本映射至768维向量空间，适用于聚类和语义搜索等任务。它不仅在生物医学领域表现出色，还可应用于其他文本分析场景。模型支持sentence-transformers和HuggingFace Transformers两种调用方式，为用户提供了便捷的使用体验。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com