floret

将fastText和Bloom嵌入结合的紧凑词向量生成工具

fastText floret 词向量文本分类子词嵌入 Github 开源项目

floret是fastText的扩展版本,结合fastText的子词技术和Bloom嵌入,为任意词生成紧凑的全覆盖向量。通过将词和子词哈希存储在同一表中,大幅减少存储空间。支持训练词嵌入和文本分类模型,提供Python接口,生成的向量可轻松导入spaCy等NLP库。作为一个高效的文本处理工具,floret在保持fastText优点的同时,提供了更紧凑的词向量表示方法。

访问官网

Github

Huggingface

介绍相关项目

fastembed-rs - 基于Rust的无需Tokio依赖，支持同步操作的高效文本嵌入工具

FastEmbed-rsGithubONNXRust开源项目文本嵌入量化模型

FastEmbed-rs为基于Rust的高效文本嵌入工具，无需Tokio依赖，支持同步操作。允许使用Hugging Face等多种模型，并通过并行处理实现高效批量嵌入。支持加载自定义.ONNX模型，提供简洁API以快速实现文本嵌入和重排，适合追求高性能文本处理的开发者。

bloomz-560m - 支持多语言的自然语言处理及生成模型

GithubHuggingfacebloomz-560m开源项目文本生成核心指代消解模型程序合成自然语言推理

bloomz-560m是一个多语言处理和生成的开源项目，专注于核心指代消解和自然语言推理任务。支持的语言多达50余种，包括中文、英语、法语、日语等。该项目使用Python和Java等编程语言，基于Winogrande、XNLI、SuperGLUE等数据集进行测试，致力于提升文本生成的准确性与灵活性。

delft - 基于Keras和TensorFlow的深度学习文本处理框架

DeLFTGithubKerasTensorFlow开源项目文本处理深度学习

DeLFT是一个Keras和TensorFlow框架，专为序列标注（如命名实体识别、信息提取）和文本分类（如评论分类）优化。它重新实现了许多前沿深度学习模型，支持处理富文本格式和多种现代NLP架构，旨在提供高效、可靠且可集成的生产级应用。该框架包括各种分类器和评估标准，并支持多GPU训练和推理。

labse_bert - 多语言BERT句子嵌入模型及其应用

GithubHuggingfaceLABSE BERT句子嵌入多语言处理开源项目模型模型应用自然语言处理

LaBSE BERT是一种语言无关的句子嵌入模型，由Fangxiaoyu Feng等人开发并在TensorFlow Hub上提供。该模型能够将文本转换为高效的向量表示，适用于多语言文本处理。利用AutoTokenizer和AutoModel加载模型，并通过mean_pooling方法获取句子嵌入，以增强文本分析和信息检索等领域的性能。使用PyTorch实现编码和处理，多语言文本分析更加轻松。

timely-arctic-small - 语义相似度分析模型：句子向量化工具

GithubHuggingfaceSnowflake/snowflake-arctic-embed-s开源项目数据集文本分类模型相似性函数语义相似性

基于Sentence Transformers的模型，采用Snowflake/snowflake-arctic-embed-s进行语义相似度分析。模型将句子转化为384维向量，适用于语义搜索、同义词挖掘、文本分类和聚类等领域。使用余弦相似度作为基本算法，支持最长512个token的序列，训练与评估数据集分别包含55736与1000条样本，提升精确度。更多技术细节与用法，请参考GitHub和相关文档。

amd-partial-phonetree-v1 - 融合句子转换器和对比学习的高效文本分类模型

GithubHuggingfaceLogistic回归SetFit句子嵌入少样本学习开源项目文本分类模型

SetFit模型结合sentence-transformers/paraphrase-mpnet-base-v2，通过高效的少样本学习实现文本分类。模型采用对比学习微调句子转换器和训练LogisticRegression分类头，具有优异的分类性能。支持最大512标记长度，适用于电话语音邮件和电话树分类需求。模型适合需要高效文本分类的研发人员和数据科学家使用。

Splade_PP_en_v1 - ONNX稀疏向量模型助力高性能文本检索

GithubHuggingfaceONNXSplade开源项目文本分类模型相似度搜索稀疏向量编码

Splade_PP_en_v1是一个文本分类和相似度搜索模型的ONNX实现版本。模型基于FastEmbed框架运行，可将输入文本转换为稀疏向量表示，适用于文本检索和相似度计算。项目支持Python API接口调用，可进行批量文本处理，采用Apache-2.0开源许可证。

wiseflow - 基于LLM的轻量级信息提取与分类工具

GithubLLM应用PocketBaseWiseFlow信息提取开源项目智能分类

WiseFlow是一个开源的信息提取和分类工具，利用大型语言模型从网站、微信公众号和社交媒体中提取关键信息。它具有轻量级设计，无需GPU即可运行。该工具特别适合处理微信公众号文章，可集成到Agent项目中作为动态知识库。WiseFlow使用Pocketbase数据库，并提供多种编程语言的SDK支持，实现高效的信息过滤和关键点组织。

nli-distilroberta-base-v2 - sentence-transformers模型实现句子向量化和语义分析

GithubHuggingfaceRoBERTasentence-transformers向量嵌入开源项目模型自然语言处理语义搜索

nli-distilroberta-base-v2是一个基于sentence-transformers的句子嵌入模型，将文本映射到768维向量空间。该模型适用于聚类、语义搜索等任务，使用简单且效果出色。它支持通过几行代码生成句子嵌入，为自然语言处理提供了有力工具。

text2vec - R语言高效文本分析与NLP框架

GithubR软件包text2vec开源项目文本分析自然语言处理高性能计算

text2vec是一个R语言包，为文本分析和自然语言处理提供高效框架和简洁API。该包以C++编写，支持多线程并行处理，具有优秀性能和可扩展性。text2vec提供流式API，无需将全部数据加载到内存。它注重简洁、一致、灵活、快速和内存效率，是文本处理的理想工具。text2vec可用于文本向量化、主题建模、情感分析等任务，为研究人员和数据科学家提供强大的文本处理工具。该项目欢迎社区贡献，包括测试反馈和代码改进。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号