#文本嵌入

talk2arxiv - 一款专为学术论文PDF设计的开源响应式RAG（检索增强生成）系统

Talk2ArxivPDF解析文本嵌入向量数据库集成GROBIDGithub开源项目

Talk2Arxiv是一款专为学术论文PDF设计的开源响应式RAG（检索增强生成）系统，利用GROBID进行高效文本提取，并使用Cohere的EmbedV3模型进行精准文本嵌入。该系统不仅能缓存研究论文，减少重复处理，还通过Qdrant进行存储和查询，确保内容的相关性和准确性。前端采用Typescript, ReactJS等技术搭建，后端依赖Flask, Gunicorn实现，为学术研究提供流畅高效的在线阅读体验。

AnglE - 基于BERT和LLM模型提升句子嵌入效果的方法

长句模型Github开源项目AnglE文本嵌入语义文本相似性BERT

AnglE框架可通过多样化的模型策略和损失函数，进行基于BERT和LLM模型的句子嵌入训练和推理，已在众多语义相似度任务中表现卓越。

fastembed - 轻量且高速的Python文本嵌入式生成库，面向多模态支持

FastEmbed文本嵌入QdrantONNX Runtime多语言模型Github开源项目

FastEmbed，一个为速度和效率优化的Python库，支持多语言且易于扩展的嵌入式模型生成工具，适用于服务器和GPU环境。简化高效编码，无需依赖庞大的数据下载，适用于多种数据类型和复杂任务，是开发精确嵌入系统的理想工具。

clip-retrieval - 构建高效图像和文本检索系统的开源工具

clip-retrieval语义搜索图像嵌入文本嵌入机器学习Github开源项目

clip-retrieval 提供一个建立语义搜索系统的强大工具，使得用户能够迅速实现图像和文本的嵌入计算及索引构建。该项目能在20小时内处理超过1亿的图文嵌入，支持远程查询、数据过滤以及简洁的前端用户界面，适用于学术研究和商业应用。

clip-as-service - 一种低延迟、高可扩展性的用于嵌入图像和文本的服务

CLIP-as-service神经搜索图像嵌入文本嵌入多模态解决方案Github开源项目

CLIP-as-service是一款以神经网络为基础，专注于提供高效且易于扩展的图像和文本嵌入服务。其面向大规模数据处理，支持多种并发请求，适合集成到各种神经网络搜索框架中。这个服务通过简洁的API和自动负载均衡，让用户无需深厚技术背景即可便捷使用。同时，该服务能与Jina和DocArray等神经搜索生态系统紧密结合，助力开发者快速部署多模态和跨模态应用。

fastembed-rs - 基于Rust的无需Tokio依赖，支持同步操作的高效文本嵌入工具

FastEmbed-rs文本嵌入Rust量化模型ONNXGithub开源项目

FastEmbed-rs为基于Rust的高效文本嵌入工具，无需Tokio依赖，支持同步操作。允许使用Hugging Face等多种模型，并通过并行处理实现高效批量嵌入。支持加载自定义.ONNX模型，提供简洁API以快速实现文本嵌入和重排，适合追求高性能文本处理的开发者。

fast_vector_similarity - 向量相似度计算库，适用于数据分析、机器学习和统计任务

Fast Vector Similarity Library相似性度量文本嵌入高维数据Python绑定Github开源项目

此库高效计算向量间多种相似度，广泛用于数据分析、机器学习和统计。支持Spearman等级相关系数、Kendall相关系数等多种相似度，提供Python绑定，易于集成。基于Rust开发，采用并行计算和矢量优化，并支持数据采样以提升计算稳健性，兼容现代语言模型生成的高维文本嵌入。

flair - 一个易用的最先进自然语言处理和文本嵌入框架，支持多语言模型应用

Flair自然语言处理文本嵌入PyTorch情感分析Github开源项目

Flair 是一个强大的自然语言处理库，支持命名实体识别、情感分析、词性标注等多种功能，并且支持多种语言。通过简易接口，用户可以轻松使用和整合多种词和文档嵌入，基于 PyTorch 框架进行模型训练和实验。Flair 还对生物医学文本有特殊支持，并提供最新的命名实体识别模型，性能媲美甚至超过当前最优结果。用户可以在 Hugging Face 平台上访问并试用这些模型。

instructor-embedding - 指令微调的文本嵌入模型

INSTRUCTOR文本嵌入模型定制化任务高性能Github开源项目

INSTRUCTOR是一种指令微调的文本嵌入模型，无需额外训练即可生成定制化的文本嵌入，支持多种任务和领域，覆盖70项不同的嵌入任务，表现卓越。最新更新包括优化的代码结构和硬负样本检查点。用户可以通过本地或Colab轻松安装和使用INSTRUCTOR进行文本分类、信息检索和聚类等任务，并提供详细的安装及使用指南。

swiss_army_llama - 用 FastAPI 为各种任务公开方便的 REST 端点来促进和优化与本地 LLM 一起工作的过程

Swiss Army LlamaFastAPI文本嵌入音频转录FAISS向量搜索Github开源项目

一个优化本地LLM的工具集，提供文本嵌入、语句相似度计算、文档处理和音频转录。利用FastAPI暴露REST端点，通过llama_cpp处理文本、PDF和音频文件，自动完成OCR并计算嵌入。支持高级相似度测量和语义搜索，集成FAISS向量搜索。可选用RAM Disk加速，配置简易，兼容多种模型和方法，便于快速集成到应用中。

mteb - 多任务文本嵌入模型评估基准

MTEB文本嵌入基准测试评估自然语言处理Github开源项目

MTEB是一个开源的文本嵌入模型评估基准，涵盖多种任务类型和语言。它提供标准化的测试集、灵活的评估配置和公开排行榜。研究人员可以使用MTEB评估自定义模型，添加新任务，并进行模型性能比较，从而推动文本嵌入技术的进步。

compel - 文本嵌入系统的提示权重调整工具

Compel文本嵌入提示词权重Stable Diffusion关键词混合Github开源项目

Compel是一个文本提示权重调整工具，用于transformer类型的文本嵌入系统。通过简洁的语法，用户可以重新分配提示字符串各部分的权重，从而调整生成的嵌入张量。该工具兼容Hugging Face的StableDiffusionPipeline，支持批处理、文本反转和SDXL模型，为AI图像生成提供精细控制。

godot-llm - 大语言模型助力游戏开发的开源插件

Godot LLM大语言模型文本生成文本嵌入向量数据库Github开源项目

Godot-LLM是一个集成大语言模型功能的Godot引擎插件。它提供文本生成、文本嵌入、多模态文本生成和向量数据库等功能，适用于NPC模型、游戏机制和设计辅助。该插件支持在普通硬件上本地运行小型LLM模型，并包含检索增强生成（RAG）组件，有助于创建更智能的游戏世界和角色互动。

Luotuo-Text-Embedding - 基于OpenAI API蒸馏的开源中文文本嵌入模型

Luotuo Embedding文本嵌入BERTOpenAI骆驼Github开源项目

Luotuo-Text-Embedding是一个从OpenAI API蒸馏的开源中文文本嵌入模型。它基于BERT和GLM架构，将文本转化为1536维向量。该模型在文本可视化、相关性测试、模糊搜索和聚类等场景中表现优异。项目提供详细教程和可视化工具。

paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索

模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理

paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型，支持50多种语言。它将句子和段落映射为768维向量，适用于聚类和语义搜索。模型易于使用，通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色，采用XLMRobertaModel和平均池化层结构，可有效处理不同长度的文本输入。

bge-small-en-v1.5-onnx-Q - BGE小型英文模型的量化ONNX版本用于文本分类和相似度搜索

模型Github开源项目文本嵌入Huggingface语义相似度FastEmbed自然语言处理ONNX

bge-small-en-v1.5-onnx-Q是BAAI/bge-small-en-v1.5模型的量化ONNX版本,专门用于文本分类和相似度搜索。该模型提供高效的文本嵌入功能,可快速生成文档向量表示。借助FastEmbed库,开发者能轻松使用此模型进行文本嵌入,为信息检索和文本聚类等任务奠定基础。这个小巧高效的模型适用于多种应用场景,可满足不同的文本处理需求。

clip-vit-base-patch16 - CLIP-ViT：基于Transformers的零样本图像分类模型

模型开源项目文本嵌入Huggingface图像分类Transformers.js视觉嵌入GithubONNX

clip-vit-base-patch16是OpenAI CLIP模型的一个变种，专注于零样本图像分类任务。这个模型使用ONNX格式的权重，可与Transformers.js库无缝集成，方便在Web环境中应用。它不仅提供了易用的pipeline API用于图像分类，还支持独立的文本和图像嵌入计算功能。该模型在处理各种图像分析和跨模态任务时，能够在性能和计算效率之间保持良好平衡。

jina-embeddings-v2-base-en - 先进的嵌入模型提升多种自然语言处理任务性能

模型开源项目文本嵌入Huggingface特征提取sentence-transformersGithubMTEB句子相似度

jina-embeddings-v2-base-en是一款高性能嵌入模型，为多种自然语言处理任务生成优质语义表示。在MTEB基准测试中，该模型在文本分类、检索和聚类等任务上表现卓越。尽管名称包含'en'，但实际支持多语言处理，可应用于信息检索、问答系统和文本相似度计算等场景。模型采用先进技术，在实际应用中兼具效率和准确性。

acge_text_embedding - 高性能中文文本嵌入模型，提升语义相似度和检索效果

文本嵌入Huggingface模型信息检索Github语义相似度MTEB开源项目sentence-transformers

acge_text_embedding是一个针对中文自然语言处理优化的文本嵌入模型。该模型在MTEB基准测试中表现优异，尤其在语义相似度计算和信息检索任务上成绩突出。它还在文本分类等多个中文NLP任务中展现出优秀性能，为中文自然语言处理应用提供了高效的文本表示能力。

bilingual-embedding-large - 基于Transformer架构的法英双语文本向量模型

文本嵌入多语言模型开源项目sentence-transformers模型语义相似度Github自然语言处理Huggingface

bilingual-embedding-large是一个基于Transformer的法英双语句向量模型，支持聚类、重排序和检索等文本相似度任务。模型通过MTEB基准测试验证，在跨语言文本语义理解方面展现了稳定性能。该模型主要应用于法语和英语文本的语义分析与对比场景。

gte-large-onnx - ONNX格式文本向量模型实现快速分类与相似度搜索

ONNX文本分类Github相似度搜索Huggingface模型推理文本嵌入开源项目模型

gte-large-onnx是thenlper/gte-large模型的ONNX移植版本，用于文本分类和相似度搜索任务。该模型与FastEmbed框架集成，支持通过API调用生成文本嵌入向量，实现批量文本处理。基于Apache-2.0许可证开源，可用于构建文本相似度检索和文档分类等应用

sup-simcse-ja-large - 基于BERT的日语句向量模型与文本相似度分析工具

JSNLI日本语文本相似度Github模型自然语言处理sentence-transformersHuggingface开源项目文本嵌入

该模型基于BERT-large-japanese-v2架构开发，通过JSNLI数据集训练完成。模型整合了sentence-transformers和HuggingFace Transformers框架，可实现日语文本的向量化表示和相似度分析。技术特点包括cls池化策略、1024维隐藏层和BFloat16数据格式，适用于日语自然语言处理任务。

stsb-bert-tiny-onnx - 基于BERT的轻量级文本向量化模型

语义相似度文本嵌入Githubsentence-transformers开源项目自然语言处理Huggingface模型训练模型

这是一个轻量级的文本向量化模型，基于sentence-transformers框架开发。模型可将文本转换为128维向量表示，主要应用于文本聚类和语义搜索。支持通过sentence-transformers和HuggingFace两种方式调用，提供完整的模型评估数据。

ko-sbert-nli - 基于SBERT架构的韩语语义相似度模型实现文本向量化

文本嵌入Githubsentence-transformers开源项目自然语言处理语义搜索Huggingface韩语模型模型

该模型基于sentence-transformers框架，将韩语文本转化为768维向量。经KorNLI数据集训练，在KorSTS评估中获83.16%相关性。适用于句子编码、语义搜索和文本聚类，支持Python接口和pip安装。

gte-multilingual-reranker-base - 高效多语言文本重排模型，提升信息检索性能

多语言处理开源项目文本嵌入阿里巴巴云gte-multilingual-reranker-base模型Huggingface高性能Github

gte-multilingual-reranker-base是GTE系列中的多语言文本重排模型，适用于多语言信息检索。其采用编码器架构，在推理速度和硬件需求上均有显著优势，支持超70种语言及处理长达8192词元的文本。另有商业API版本可通过阿里云获得，实验结果获得优秀评价，详见相关论文。

e5-small-unsupervised - 无监督预训练模型用于提升文本嵌入与句子相似度

无监督学习文本嵌入Huggingface句子转换器E5-small-unsupervisedGithub开源项目模型句子相似性

该无监督对比预训练模型通过弱监督方法进行预训练，无需人为标注，实现高效的句子相似度计算和信息检索。模型具备12层架构和384维嵌入空间，适用于MS-MARCO数据集等的查询与段落编码。输入文本需使用特定前缀（如“query:”与“passage:”）以求最佳效果。模型包含详细示例代码和训练细节，适用于BEIR和MTEB基准评价，支持英文文本，文本长度限制为512个标记。

e5-base-unsupervised - E5-base突出文本嵌入的创新性

对比学习文本嵌入E5-base-unsupervised模型Github开源项目句子相似度自然语言处理Huggingface

探索无监督文本嵌入的新领域，E5-base-unsupervised模型通过弱监督对比预训练实现文本表示学习。模型由12层组成，嵌入尺寸为768，支持句子相似度评估等多种任务。模型专为高效的查询和段落编码设计，适合开放问答和广告信息检索等场景使用。其使用便捷，支持与Sentence Transformers结合应用，以便在不同任务中灵活调整。同时，该模型仅支持英文文本，最大支持512个令牌。访问相关文档和基准测试可进一步了解性能和训练细节。

gte-micro-v3 - 轻量级语义嵌入模型用于高效文本相似度计算

sentence-transformersGithub模型开源项目Huggingface文本嵌入gte-micro-v3语义相似度自然语言处理

gte-micro-v3是一个轻量级语义嵌入模型，由gte-tiny蒸馏而来。该模型主要用于语义自动补全，可生成句子嵌入向量，实现文本相似度计算。基于sentence-transformers框架开发，支持最多512个token的英文输入。在MTEB评测中表现优异，适用于要求高效文本语义理解的应用。

LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse - 基于LLaMA的无监督语言模型嵌入技术

Github信息检索模型句子相似度文本分类开源项目Huggingface文本嵌入MTEB

LLM2Vec-Sheared-LLaMA-mntp-unsup-simcse 是一种基于LLaMA模型的无监督语言模型嵌入技术。该项目通过剪枝和对比学习等方法优化模型，在文本分类、信息检索、聚类等多种NLP任务中表现优异。项目进行了广泛的评估，为自然语言处理领域提供了一种高效的文本表示学习方法。

instructor-base - Transformer架构的文本相似度模型，支持多语言文档检索和语义分析

开源项目模型GithubMTEBHuggingface模型评估文本嵌入transformers句子相似度

instructor-base是一个基于Transformer架构的文本相似度模型。该模型在MTEB基准测试中表现良好，可用于文本分类、信息检索和文档聚类等任务。它使用文本嵌入技术来捕捉句子间的语义相似度，适用于搜索优化、问答系统和文本分析。模型支持多语言处理，可作为自然语言处理的有效工具。

paraphrase-albert-base-v2 - 基于ALBERT的句子嵌入模型用于文本聚类和语义搜索

语义搜索开源项目文本嵌入自然语言处理模型向量计算Huggingfacesentence-transformersGithub

这是一个基于ALBERT架构的句子嵌入模型，可将文本映射至768维向量空间。该模型支持sentence-transformers和HuggingFace Transformers两种集成方式，适用于文本聚类、语义搜索等任务。通过平均池化处理，模型能高效生成文本向量表示，尤其适合需要计算句子相似度的应用场景。

相关文章

Article Cover

FastEmbed: 快速、准确、轻量级的Python嵌入式向量生成库

Article Cover

Talk2Arxiv：与任何ArXiv论文对话的开源RAG系统

Article Cover

AnglE:一个强大的句子嵌入训练和推理框架

Article Cover

CLIP-Retrieval: 构建高效的多模态语义检索系统

Article Cover

CLIP-as-service: 高效可扩展的图像和文本嵌入服务

Article Cover

FastEmbed-rs: 高效的Rust向量嵌入库

Article Cover

高效向量相似度计算：Fast Vector Similarity Library 深度解析

Article Cover

MTEB: 大规模文本嵌入基准测试

Article Cover

Godot LLM: 为游戏开发引入大语言模型的强大插件

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号