#文本嵌入

talk2arxiv - 一款专为学术论文PDF设计的开源响应式RAG(检索增强生成)系统
Talk2ArxivPDF解析文本嵌入向量数据库集成GROBIDGithub开源项目
Talk2Arxiv是一款专为学术论文PDF设计的开源响应式RAG(检索增强生成)系统,利用GROBID进行高效文本提取,并使用Cohere的EmbedV3模型进行精准文本嵌入。该系统不仅能缓存研究论文,减少重复处理,还通过Qdrant进行存储和查询,确保内容的相关性和准确性。前端采用Typescript, ReactJS等技术搭建,后端依赖Flask, Gunicorn实现,为学术研究提供流畅高效的在线阅读体验。
AnglE - 基于BERT和LLM模型提升句子嵌入效果的方法
长句模型Github开源项目AnglE文本嵌入语义文本相似性BERT
AnglE框架可通过多样化的模型策略和损失函数,进行基于BERT和LLM模型的句子嵌入训练和推理,已在众多语义相似度任务中表现卓越。
fastembed - 轻量且高速的Python文本嵌入式生成库,面向多模态支持
FastEmbed文本嵌入QdrantONNX Runtime多语言模型Github开源项目
FastEmbed,一个为速度和效率优化的Python库,支持多语言且易于扩展的嵌入式模型生成工具,适用于服务器和GPU环境。简化高效编码,无需依赖庞大的数据下载,适用于多种数据类型和复杂任务,是开发精确嵌入系统的理想工具。
clip-retrieval - 构建高效图像和文本检索系统的开源工具
clip-retrieval语义搜索图像嵌入文本嵌入机器学习Github开源项目
clip-retrieval 提供一个建立语义搜索系统的强大工具,使得用户能够迅速实现图像和文本的嵌入计算及索引构建。该项目能在20小时内处理超过1亿的图文嵌入,支持远程查询、数据过滤以及简洁的前端用户界面,适用于学术研究和商业应用。
clip-as-service - 一种低延迟、高可扩展性的用于嵌入图像和文本的服务
CLIP-as-service神经搜索图像嵌入文本嵌入多模态解决方案Github开源项目
CLIP-as-service是一款以神经网络为基础,专注于提供高效且易于扩展的图像和文本嵌入服务。其面向大规模数据处理,支持多种并发请求,适合集成到各种神经网络搜索框架中。这个服务通过简洁的API和自动负载均衡,让用户无需深厚技术背景即可便捷使用。同时,该服务能与Jina和DocArray等神经搜索生态系统紧密结合,助力开发者快速部署多模态和跨模态应用。
fastembed-rs - 基于Rust的无需Tokio依赖,支持同步操作的高效文本嵌入工具
FastEmbed-rs文本嵌入Rust量化模型ONNXGithub开源项目
FastEmbed-rs为基于Rust的高效文本嵌入工具,无需Tokio依赖,支持同步操作。允许使用Hugging Face等多种模型,并通过并行处理实现高效批量嵌入。支持加载自定义.ONNX模型,提供简洁API以快速实现文本嵌入和重排,适合追求高性能文本处理的开发者。
fast_vector_similarity - 向量相似度计算库,适用于数据分析、机器学习和统计任务
Fast Vector Similarity Library相似性度量文本嵌入高维数据Python绑定Github开源项目
此库高效计算向量间多种相似度,广泛用于数据分析、机器学习和统计。支持Spearman等级相关系数、Kendall相关系数等多种相似度,提供Python绑定,易于集成。基于Rust开发,采用并行计算和矢量优化,并支持数据采样以提升计算稳健性,兼容现代语言模型生成的高维文本嵌入。
flair - 一个易用的最先进自然语言处理和文本嵌入框架,支持多语言模型应用
Flair自然语言处理文本嵌入PyTorch情感分析Github开源项目
Flair 是一个强大的自然语言处理库,支持命名实体识别、情感分析、词性标注等多种功能,并且支持多种语言。通过简易接口,用户可以轻松使用和整合多种词和文档嵌入,基于 PyTorch 框架进行模型训练和实验。Flair 还对生物医学文本有特殊支持,并提供最新的命名实体识别模型,性能媲美甚至超过当前最优结果。用户可以在 Hugging Face 平台上访问并试用这些模型。
instructor-embedding - 指令微调的文本嵌入模型
INSTRUCTOR文本嵌入模型定制化任务高性能Github开源项目
INSTRUCTOR是一种指令微调的文本嵌入模型,无需额外训练即可生成定制化的文本嵌入,支持多种任务和领域,覆盖70项不同的嵌入任务,表现卓越。最新更新包括优化的代码结构和硬负样本检查点。用户可以通过本地或Colab轻松安装和使用INSTRUCTOR进行文本分类、信息检索和聚类等任务,并提供详细的安装及使用指南。
swiss_army_llama - 用 FastAPI 为各种任务公开方便的 REST 端点来促进和优化与本地 LLM 一起工作的过程
Swiss Army LlamaFastAPI文本嵌入音频转录FAISS向量搜索Github开源项目
一个优化本地LLM的工具集,提供文本嵌入、语句相似度计算、文档处理和音频转录。利用FastAPI暴露REST端点,通过llama_cpp处理文本、PDF和音频文件,自动完成OCR并计算嵌入。支持高级相似度测量和语义搜索,集成FAISS向量搜索。可选用RAM Disk加速,配置简易,兼容多种模型和方法,便于快速集成到应用中。
mteb - 多任务文本嵌入模型评估基准
MTEB文本嵌入基准测试评估自然语言处理Github开源项目
MTEB是一个开源的文本嵌入模型评估基准,涵盖多种任务类型和语言。它提供标准化的测试集、灵活的评估配置和公开排行榜。研究人员可以使用MTEB评估自定义模型,添加新任务,并进行模型性能比较,从而推动文本嵌入技术的进步。
compel - 文本嵌入系统的提示权重调整工具
Compel文本嵌入提示词权重Stable Diffusion关键词混合Github开源项目
Compel是一个文本提示权重调整工具,用于transformer类型的文本嵌入系统。通过简洁的语法,用户可以重新分配提示字符串各部分的权重,从而调整生成的嵌入张量。该工具兼容Hugging Face的StableDiffusionPipeline,支持批处理、文本反转和SDXL模型,为AI图像生成提供精细控制。
godot-llm - 大语言模型助力游戏开发的开源插件
Godot LLM大语言模型文本生成文本嵌入向量数据库Github开源项目
Godot-LLM是一个集成大语言模型功能的Godot引擎插件。它提供文本生成、文本嵌入、多模态文本生成和向量数据库等功能,适用于NPC模型、游戏机制和设计辅助。该插件支持在普通硬件上本地运行小型LLM模型,并包含检索增强生成(RAG)组件,有助于创建更智能的游戏世界和角色互动。
Luotuo-Text-Embedding - 基于OpenAI API蒸馏的开源中文文本嵌入模型
Luotuo Embedding文本嵌入BERTOpenAI骆驼Github开源项目
Luotuo-Text-Embedding是一个从OpenAI API蒸馏的开源中文文本嵌入模型。它基于BERT和GLM架构,将文本转化为1536维向量。该模型在文本可视化、相关性测试、模糊搜索和聚类等场景中表现优异。项目提供详细教程和可视化工具。
paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索
模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理
paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型,支持50多种语言。它将句子和段落映射为768维向量,适用于聚类和语义搜索。模型易于使用,通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色,采用XLMRobertaModel和平均池化层结构,可有效处理不同长度的文本输入。
bge-m3 - 先进的多语言多功能文本嵌入模型
模型BGE-M3自知识蒸馏开源项目文本嵌入HuggingfaceGithub多语言向量检索
BGE-M3是一个支持100多种语言的文本嵌入模型,具备多功能和多粒度处理能力。它可同时执行密集检索、多向量检索和稀疏检索,处理范围从短句到长达8192个token的文档。该模型在多语言和跨语言任务中表现出色,为检索增强生成等应用提供支持。BGE-M3采用自知识蒸馏等技术训练,在多项基准测试中取得了优秀成绩。
llm-embedder - FlagEmbedding 高性能文本向量化模型助力信息检索与语义搜索
重排模型Github文本嵌入微调Huggingface开源项目模型FlagEmbedding检索增强
FlagEmbedding项目开发了一系列高性能文本向量化模型,可将文本转化为低维密集向量。这些模型在信息检索、文本分类、聚类和语义搜索等任务中表现出色,也可用于构建大语言模型的向量数据库。项目包含BGE和LLM-Embedder等多个中英双语模型,在MTEB和C-MTEB基准测试中均取得第一。FlagEmbedding还提供模型微调代码和性能评估工具,便于进行定制化训练和测试。
bge-reranker-base - 高性能中英文文本重排序模型
文本嵌入Huggingface模型模型微调Github开源项目检索FlagEmbeddingBGE
bge-reranker-base是一款基于交叉编码器的中英文文本重排序模型。该模型能对搜索引擎返回的候选文档进行精准重排,有效提升检索质量。在多个重排序任务中表现出色,适用于优化各类信息检索和问答系统的结果。
gte-small - 轻量级通用文本嵌入模型GTE-Small支持多种NLP应用
文本嵌入特征提取Huggingface模型GTE-smallGithub语义相似度Transformers.js开源项目
GTE-Small是阿里巴巴达摩院开发的通用文本嵌入模型。基于BERT框架,该模型在大规模文本对语料库上训练,涵盖多个领域和场景。虽然模型仅70MB,但在MTEB基准测试中平均得分达61.36。GTE-Small适用于信息检索、语义相似度计算、文本重排序等任务,支持Python和JavaScript,最大输入长度为512个token。
distilbert-base-nli-mean-tokens - 基于DistilBERT的句子嵌入模型用于文本聚类和语义搜索
模型语义搜索DistilBERTGithub文本嵌入sentence-transformersHuggingface开源项目自然语言处理
distilbert-base-nli-mean-tokens是一个基于sentence-transformers框架的句子嵌入模型。它能将文本映射为768维向量,适用于文本聚类和语义搜索。尽管已不推荐使用,但该模型仍是学习句子嵌入技术的典型案例。它展示了如何结合DistilBERT和平均池化生成句向量,可通过sentence-transformers库轻松调用。这个开源项目为自然语言处理领域提供了有价值的参考。
sentence-bert-base-ja-mean-tokens-v2 - 日语句向量模型SBERT-ja-v2支持高精度语义相似度计算
文本嵌入HuggingfaceSentence-BERT模型机器学习Github日本語开源项目自然语言处理
sentence-bert-base-ja-mean-tokens-v2是一个基于BERT的日语句向量模型,采用MultipleNegativesRankingLoss训练方法,精度较前版本提升1.5-2个百分点。模型基于cl-tohoku/bert-base-japanese-whole-word-masking预训练,主要用于句子相似度计算等任务。它提供简洁的Python接口,支持批量处理,可应用于多种自然语言处理场景。
m3e-base - 中英双语文本嵌入模型,支持多种自然语言处理任务
文本嵌入文本相似度Huggingface模型GithubM3E开源项目sentence-transformers微调
M3E是一个开源的文本嵌入模型,在2200万+中文句对数据集上训练。该模型支持中英双语的文本相似度计算和检索,适用于文本分类、检索等多种自然语言处理任务。M3E在MTEB-zh基准测试中表现优异,多项指标超越了OpenAI的同类模型。它易于使用和微调,完全兼容sentence-transformers生态系统。
multi-qa-mpnet-base-cos-v1 - 面向语义搜索的句子向量化模型
模型语义搜索Github文本嵌入sentence-transformers开源项目Huggingface机器学习自然语言处理
multi-qa-mpnet-base-cos-v1是一个基于sentence-transformers的语义搜索模型。该模型将句子和段落映射为768维向量,通过215M个多样化问答对训练而成。它支持句子相似度计算和特征提取,适用于信息检索和问答系统等应用。模型提供简洁API,可使用点积或余弦相似度计算文本相似度。
instructor-large - 多语言多任务文本嵌入模型
模型开源项目文本嵌入信息检索HuggingfaceGithubINSTRUCTOR句子相似度文本分类
INSTRUCTOR是一种基于T5架构的文本嵌入模型,支持多语言和多任务场景。该模型在句子相似度、文本分类、信息检索等任务中表现优异,适用于提示检索和文本重排序等应用。INSTRUCTOR在多项基准测试中获得了出色成绩,为自然语言处理提供了一个多功能的解决方案。
GLuCoSE-base-ja - 基于LUKE的日语文本嵌入模型GLuCoSE支持语义相似度和搜索应用
GLuCoSE文本嵌入Huggingface模型LUKEGithub开源项目自然语言处理语义搜索
GLuCoSE-base-ja是基于LUKE的日语文本嵌入模型,通过多样化数据集训练而成。该模型支持512个token输入和768维输出,采用平均池化,适用于句向量相似度和语义搜索任务。在JSTS语义相似度和AIO3零样本搜索基准测试中,GLuCoSE-base-ja的表现超越了包括OpenAI的text-embedding-ada-002在内的多个模型。研究人员可以通过sentence-transformers库轻松使用该模型,为日语自然语言处理应用提供支持。
bge-small-en-v1.5-onnx-Q - BGE小型英文模型的量化ONNX版本用于文本分类和相似度搜索
模型Github开源项目文本嵌入Huggingface语义相似度FastEmbed自然语言处理ONNX
bge-small-en-v1.5-onnx-Q是BAAI/bge-small-en-v1.5模型的量化ONNX版本,专门用于文本分类和相似度搜索。该模型提供高效的文本嵌入功能,可快速生成文档向量表示。借助FastEmbed库,开发者能轻松使用此模型进行文本嵌入,为信息检索和文本聚类等任务奠定基础。这个小巧高效的模型适用于多种应用场景,可满足不同的文本处理需求。
clip-vit-base-patch16 - CLIP-ViT:基于Transformers的零样本图像分类模型
模型开源项目文本嵌入Huggingface图像分类Transformers.js视觉嵌入GithubONNX
clip-vit-base-patch16是OpenAI CLIP模型的一个变种,专注于零样本图像分类任务。这个模型使用ONNX格式的权重,可与Transformers.js库无缝集成,方便在Web环境中应用。它不仅提供了易用的pipeline API用于图像分类,还支持独立的文本和图像嵌入计算功能。该模型在处理各种图像分析和跨模态任务时,能够在性能和计算效率之间保持良好平衡。
jina-embeddings-v2-base-en - 先进的嵌入模型提升多种自然语言处理任务性能
模型开源项目文本嵌入Huggingface特征提取sentence-transformersGithubMTEB句子相似度
jina-embeddings-v2-base-en是一款高性能嵌入模型,为多种自然语言处理任务生成优质语义表示。在MTEB基准测试中,该模型在文本分类、检索和聚类等任务上表现卓越。尽管名称包含'en',但实际支持多语言处理,可应用于信息检索、问答系统和文本相似度计算等场景。模型采用先进技术,在实际应用中兼具效率和准确性。
acge_text_embedding - 高性能中文文本嵌入模型,提升语义相似度和检索效果
文本嵌入Huggingface模型信息检索Github语义相似度MTEB开源项目sentence-transformers
acge_text_embedding是一个针对中文自然语言处理优化的文本嵌入模型。该模型在MTEB基准测试中表现优异,尤其在语义相似度计算和信息检索任务上成绩突出。它还在文本分类等多个中文NLP任务中展现出优秀性能,为中文自然语言处理应用提供了高效的文本表示能力。
bilingual-embedding-large - 基于Transformer架构的法英双语文本向量模型
文本嵌入多语言模型开源项目sentence-transformers模型语义相似度Github自然语言处理Huggingface
bilingual-embedding-large是一个基于Transformer的法英双语句向量模型,支持聚类、重排序和检索等文本相似度任务。模型通过MTEB基准测试验证,在跨语言文本语义理解方面展现了稳定性能。该模型主要应用于法语和英语文本的语义分析与对比场景。
gte-large-onnx - ONNX格式文本向量模型实现快速分类与相似度搜索
ONNX文本分类Github相似度搜索Huggingface模型推理文本嵌入开源项目模型
gte-large-onnx是thenlper/gte-large模型的ONNX移植版本,用于文本分类和相似度搜索任务。该模型与FastEmbed框架集成,支持通过API调用生成文本嵌入向量,实现批量文本处理。基于Apache-2.0许可证开源,可用于构建文本相似度检索和文档分类等应用
sup-simcse-ja-large - 基于BERT的日语句向量模型与文本相似度分析工具
JSNLI日本语文本相似度Github模型自然语言处理sentence-transformersHuggingface开源项目文本嵌入
该模型基于BERT-large-japanese-v2架构开发,通过JSNLI数据集训练完成。模型整合了sentence-transformers和HuggingFace Transformers框架,可实现日语文本的向量化表示和相似度分析。技术特点包括cls池化策略、1024维隐藏层和BFloat16数据格式,适用于日语自然语言处理任务。
stsb-bert-tiny-onnx - 基于BERT的轻量级文本向量化模型
语义相似度文本嵌入Githubsentence-transformers开源项目自然语言处理Huggingface模型训练模型
这是一个轻量级的文本向量化模型,基于sentence-transformers框架开发。模型可将文本转换为128维向量表示,主要应用于文本聚类和语义搜索。支持通过sentence-transformers和HuggingFace两种方式调用,提供完整的模型评估数据。
ko-sbert-nli - 基于SBERT架构的韩语语义相似度模型实现文本向量化
文本嵌入Githubsentence-transformers开源项目自然语言处理语义搜索Huggingface韩语模型模型
该模型基于sentence-transformers框架,将韩语文本转化为768维向量。经KorNLI数据集训练,在KorSTS评估中获83.16%相关性。适用于句子编码、语义搜索和文本聚类,支持Python接口和pip安装。
gte-multilingual-reranker-base - 高效多语言文本重排模型,提升信息检索性能
多语言处理开源项目文本嵌入阿里巴巴云gte-multilingual-reranker-base模型Huggingface高性能Github
gte-multilingual-reranker-base是GTE系列中的多语言文本重排模型,适用于多语言信息检索。其采用编码器架构,在推理速度和硬件需求上均有显著优势,支持超70种语言及处理长达8192词元的文本。另有商业API版本可通过阿里云获得,实验结果获得优秀评价,详见相关论文。
e5-small-unsupervised - 无监督预训练模型用于提升文本嵌入与句子相似度
无监督学习文本嵌入Huggingface句子转换器E5-small-unsupervisedGithub开源项目模型句子相似性
该无监督对比预训练模型通过弱监督方法进行预训练,无需人为标注,实现高效的句子相似度计算和信息检索。模型具备12层架构和384维嵌入空间,适用于MS-MARCO数据集等的查询与段落编码。输入文本需使用特定前缀(如“query:”与“passage:”)以求最佳效果。模型包含详细示例代码和训练细节,适用于BEIR和MTEB基准评价,支持英文文本,文本长度限制为512个标记。