small-text

Small-Text：Python中的文本分类主动学习工具

small-text 积极学习文本分类 Python sklearn Github 开源项目

Small-Text 是一个前沿的文本分类主动学习工具，支持多种查询策略、初始化策略和停止准则，用户可以灵活组合使用。工具支持 GPU 加速的 Pytorch 模型和 transformers 集成，适用于复杂文本分类任务，同时也支持 CPU 的轻量安装。科学验证的组件和详细文档使无论是试验还是实际应用，都变得更简单。要求 Python 3.7 或更高版本，支持 CUDA 10.1 或更新版本。如需了解更多，请访问其文档和安装指南。

Github

介绍相关项目

deep-text-recognition-benchmark - 基于深度学习方法的文本识别

GithubPyTorch场景文本识别开源项目数据集模型分析深度学习

该项目是一个开源的场景文本识别框架，通过四阶段的官方PyTorch实现，支持现有大多数STR模型。它允许在统一的数据集上，评估各个模块的性能表现，包括准确性、速度和内存需求，并已被多个国际竞赛验证。用户可使用预训练模型进行测试，或进行更深入研究。

bge-m3-zeroshot-v2.0 - BGE-M3基于零样本学习的多语言文本分类模型

GithubHuggingfacezeroshot分类商业友好数据多语言模型开源项目文本分类模型自然语言推理

bge-m3-zeroshot-v2.0模型基于BAAI/bge-m3-retromae开发，是一款高效的零样本文本分类器。该模型支持多语言处理，可接受长达8192个tokens的输入。通过自然语言推理训练，无需微调即可执行各类分类任务。模型分为商业友好版(-c)和学术研究版，在28个分类任务中表现优异。适用于需要灵活文本分类解决方案的场景，支持GPU和CPU部署。

e5-small - 高效轻量的句子相似度计算模型

GithubHuggingfaceMTEBsentence-transformers开源项目性能评估数据集机器学习模型

e5-small是一个轻量级神经网络模型，专注于句子相似度计算。该模型在文本分类、检索和聚类等多项基准测试中表现优异。支持多语言处理，适用于需要高效文本嵌入的场景。其轻量设计在保持性能的同时减少计算资源消耗，适合各类文本相似度应用。

TextDescriptives - 使用spaCy组件进行多维度文本分析

APIGithubPython库TextDescriptivesspaCy开源项目文本指标

TextDescriptives是一个基于Python的库，通过spaCy v.3管道组件和扩展计算多种文本指标。包括详细文档和Jupyter notebook教程，方便用户上手和使用功能。最新2.0版本引入全新API和组件，支持无代码提取指标的web应用。用户可设置不同参数快速提取文本指标，并将结果导出为Pandas DataFrame或字典。适合文本分析入门者，也为高级用户提供深度定制的选项。

small - 开源中文自然语言处理平台

GithubHuggingfaceLTP中文分词命名实体识别开源项目模型自然语言处理词性标注

LTP是哈工大开发的开源中文自然语言处理平台，提供分词、词性标注、命名实体识别等功能。支持Python和Rust接口，最新版本结合深度学习和感知机算法，显著提升处理速度。LTP支持用户自定义训练，在学术和工业领域广泛应用，是中文NLP研究与应用的重要工具。

timely-arctic-small - 语义相似度分析模型：句子向量化工具

GithubHuggingfaceSnowflake/snowflake-arctic-embed-s开源项目数据集文本分类模型相似性函数语义相似性

基于Sentence Transformers的模型，采用Snowflake/snowflake-arctic-embed-s进行语义相似度分析。模型将句子转化为384维向量，适用于语义搜索、同义词挖掘、文本分类和聚类等领域。使用余弦相似度作为基本算法，支持最长512个token的序列，训练与评估数据集分别包含55736与1000条样本，提升精确度。更多技术细节与用法，请参考GitHub和相关文档。

NoInstruct-small-Embedding-v0 - 小型嵌入模型在MTEB基准测试中展现卓越性能

GithubHuggingfacesentence-transformers信息检索嵌入模型开源项目文本分类模型相似度计算

NoInstruct-small-Embedding-v0是一个小型嵌入模型，在MTEB基准测试中展现出优秀性能。该模型在文本相似度、分类和检索任务上表现突出，特别是在亚马逊评论分类中。基于sentence-transformers库开发，支持特征提取、句子相似度计算等多种NLP任务。在多个数据集上的出色表现体现了其在实际应用中的潜力。

chatbot-bert-classification - 基于BERT的聊天机器人文本分类模型

Apache 2.0GithubHuggingface代码共享开源协议开源许可开源项目模型软件许可

这是一个应用BERT模型进行聊天机器人文本分类的开源项目。该项目利用先进的自然语言处理技术，实现对用户输入文本的准确分类，帮助开发者构建智能对话系统。项目采用Apache-2.0许可证，为开发者提供了灵活的使用权限。

languagemodels - 轻松实现低内存大语言模型推理的Python库

GPU加速GithubLanguage ModelsPython大语言模型开源项目语义搜索

该Python库简化了大语言模型的使用，最低内存需求仅为512MB，确保所有推理在本地完成以保障数据隐私。支持GPU加速及多种模型配置，功能涵盖文本翻译、代码补全、语义搜索等，适合教育和商业用途。用户可通过简单的pip命令安装，在REPL、笔记本或脚本中使用。详见官方网站的文档与示例程序。

INVOICE-DISPUTE - SetFit模型高效应用于文本分类的少样本学习方法

GithubHuggingfaceLogisticRegressionSetFit句子变换器对比学习开源项目文本分类模型

本项目介绍了SetFit模型在文本分类任务中的应用，利用高效的少样本学习技术，通过对Sentence Transformer进行对比学习微调，并使用微调后的特征训练Logistic Regression分类头，实现文本分类。SetFit模型支持最大512个令牌的序列长度，适用于二分类任务。通过SetFit库，用户可以便捷地安装并使用该模型进行推理，更多信息可在GitHub和相关论文中查阅。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号