#嵌入向量

examples - 高效分析非结构化数据的开源示例
Towhee数据处理机器学习嵌入向量图像搜索Github开源项目
Towhee Examples 是一个用于分析非结构化数据的开源案例库,包括反向图像搜索、反向视频搜索、音频分类、问答系统和分子搜索等多种应用场景。通过 Towhee 的机器学习模型管道,用户可以轻松生成各种嵌入向量。示例内容多样,涵盖图像动画、图像去重、文字图像搜索、视频分类、深度伪造检测和音频分类等。所有示例均可在本地环境中轻松运行,帮助开发者简化数据处理任务。
open-metric-learning - 开源的PyTorch度量学习框架 支持多模态嵌入训练
open-metric-learning度量学习嵌入向量PyTorch检索系统Github开源项目
open-metric-learning是一个基于PyTorch的开源度量学习框架,用于训练和验证高质量嵌入模型。它提供端到端流水线、实用案例和预训练模型库,支持图像和文本等多种模态。该框架具有统一的检索结果处理和评估方法,适用于人脸识别、商品搜索等嵌入学习任务。已被多家知名公司和机构采用,是一个功能丰富、易于上手的度量学习工具。
autofaiss - 自动构建高效Faiss近邻搜索索引
AutoFaissKNN索引Faiss嵌入向量相似度搜索Github开源项目
AutoFaiss是一个开源工具,用于自动创建高效的Faiss近邻搜索索引。该工具根据内存和查询速度限制,自动选择最佳索引参数,以获得最高召回率。AutoFaiss能处理大规模数据集,在有限内存下构建高效索引,实现毫秒级查询。它提供Python API和命令行接口,支持内存和磁盘上的嵌入向量,并可与PySpark集成进行分布式索引构建。
NEFTune - 革新语言模型指令微调的噪声嵌入技术
NEFTuneLLM微调嵌入向量噪声增强性能提升Github开源项目
NEFTune是一种创新的语言模型指令微调技术,通过向嵌入向量添加随机噪声来提升模型性能。这种方法无需额外计算资源或数据,却能显著改善对话质量。在AlpacaEval评估中,NEFTune将LLaMA-2-7B模型的性能从29.8%提升至64.7%。作为一种高效的LLM微调方案,NEFTune为模型优化提供了低成本、高收益的解决方案。
awadb - AI原生向量数据库 实时高效易用
AwaDB向量数据库AI嵌入向量实时搜索Github开源项目
AwaDB是一款为AI应用优化的向量数据库,无需复杂设置即可使用。它支持毫秒级实时搜索,基于多年生产经验打造,稳定可靠。AwaDB可本地运行或Docker部署,提供Python SDK和RESTful API,轻松处理文本、图像等非结构化数据的向量嵌入和检索。适用于各类AI应用场景,简化向量数据管理和检索流程。
paraphrase-MiniLM-L6-v2 - 句子嵌入模型实现语义搜索和文本聚类
嵌入向量特征提取Huggingface模型Github语义相似度开源项目sentence-transformers自然语言处理
paraphrase-MiniLM-L6-v2是基于sentence-transformers的句子嵌入模型,将文本映射到384维向量空间。该模型适用于文本聚类和语义搜索,支持sentence-transformers库和HuggingFace Transformers两种使用方式。模型在多项基准测试中表现出色,为自然语言处理任务提供了有效解决方案。
msmarco-distilbert-base-v4 - 基于DistilBERT的高性能句子嵌入模型
嵌入向量特征提取Huggingface模型Github语义相似度开源项目sentence-transformers自然语言处理
msmarco-distilbert-base-v4是一个基于sentence-transformers框架的句子嵌入模型,能将文本映射到768维向量空间。这个模型适用于语义搜索、聚类等任务,可通过sentence-transformers或Hugging Face Transformers库轻松集成。它采用DistilBERT架构和平均池化策略,为自然语言处理应用提供高效的文本表示能力。
xlm-r-100langs-bert-base-nli-stsb-mean-tokens - 已弃用的多语言句子嵌入模型用于语义相似度任务
嵌入向量Huggingface模型Github语义相似度开源项目sentence-transformers自然语言处理多语言模型
xlm-r-100langs-bert-base-nli-stsb-mean-tokens是一个已被弃用的多语言句子嵌入模型。尽管它能将文本映射到768维向量空间并支持100种语言,但由于产生低质量的句子嵌入,不再推荐使用。该模型基于sentence-transformers开发,原本用于聚类和语义搜索等任务。虽然可通过sentence-transformers或Hugging Face Transformers库使用,但建议选择更新、更高质量的句子嵌入模型替代。
bge-small-en-v1.5 - BGE-Small-EN-v1.5模型为Infinity项目提供高效嵌入式推理
嵌入向量特征提取Infinity Embedding ModelHuggingface模型Github开源项目句子转换器句子相似度
BGE-Small-EN-v1.5是Infinity项目的默认嵌入式模型,支持GPU和CPU推理。通过pip安装后,用户可使用Python API或命令行界面生成句子嵌入向量。该开源模型适用于句子相似度计算等任务,为文本嵌入提供了高效且灵活的解决方案。
msmarco-distilbert-cos-v5 - 用于语义搜索的句子向量化模型
模型模型训练Github开源项目Huggingface自然语言处理嵌入向量sentence-transformers语义搜索
msmarco-distilbert-cos-v5是一个基于sentence-transformers的语义搜索模型。它将文本映射至768维向量空间,基于MS MARCO数据集训练。支持sentence-transformers和HuggingFace Transformers两种使用方式。模型输出标准化嵌入向量,适用于多种相似度计算方法。这一工具可助力开发者构建高效的语义搜索应用。
msmarco-bert-base-dot-v5 - BERT语义搜索模型 用于高效文本编码和相似度计算
模型BERTGithub开源项目HuggingfaceMS MARCO数据集嵌入向量sentence-transformers语义搜索
msmarco-bert-base-dot-v5是一个语义搜索模型,基于sentence-transformers框架开发。该模型将文本映射到768维向量空间,在MS MARCO数据集上训练而成。它能高效进行文本编码和相似度计算,支持通过sentence-transformers或HuggingFace Transformers库集成使用。这个模型适用于语义搜索等多种自然语言处理任务,为开发者提供了便捷的文本分析工具。
pubmedbert-base-embeddings - 专为医学文献优化的嵌入模型 支持语义搜索和RAG应用
模型Github医学文献开源项目Huggingface自然语言处理嵌入向量语义搜索PubMedBERT
PubMedBERT Embeddings是一个专门针对医学文献优化的嵌入模型。它基于PubMedBERT进行微调,将句子和段落映射到768维向量空间。该模型在PubMed标题-摘要对上训练,相比通用模型能为医学文献生成更高质量的嵌入向量。它支持聚类、语义搜索等应用,可通过txtai、Sentence-Transformers或Hugging Face Transformers等框架轻松集成。在多个PubMed相关评估数据集上,该模型展现出优秀的性能表现。
sentence-transformers-multilingual-e5-large - 多语言句子嵌入模型适用于语义搜索和文本相似度分析
模型Github多语言模型开源项目Huggingface语义相似度嵌入向量sentence-transformers自然语言处理
sentence-transformers-multilingual-e5-large是一个多语言句子嵌入模型,将句子和段落映射到1024维向量空间。该模型基于sentence-transformers库构建,适用于聚类、语义搜索等任务。支持多语言处理,可通过Python代码轻松调用。模型在Sentence Embeddings Benchmark上进行了评估,为自然语言处理应用提供了有效的文本表示方法。
specter2_base - 科学文献嵌入模型支持多任务适配
嵌入向量科学文献Huggingface模型SPECTER2Github开源项目自然语言处理语义搜索
SPECTER2是一个生成科学文献嵌入的开源模型。它基于600万篇论文引用关系训练,通过适配器支持分类、回归、近似检索和即时搜索等任务。该模型在SciRepEval和MDCR等基准测试中表现出色,为文献检索、分类和推荐等应用提供高质量的文献表示。
stsb-mpnet-base-v2 - 将句子映射至向量空间的自然语言处理模型
嵌入向量特征提取Huggingface模型Github语义相似度开源项目sentence-transformers自然语言处理
stsb-mpnet-base-v2是一个基于sentence-transformers的模型,能够将句子和段落转换为768维向量。该模型适用于文本聚类和语义搜索等任务,具有使用简便和性能优异的特点。它采用MPNet架构和平均池化方法生成句子嵌入,在多项评估中表现良好,可广泛应用于自然语言处理领域。
msmarco-cotmae-MiniLM-L12_en-ko-ja - 多语言语义理解和向量化模型
模型模型训练Githubsentence-transformers开源项目嵌入向量语义相似度Huggingface自然语言处理
这是一个基于sentence-transformers框架的多语言语义理解模型,可将句子和段落映射为1536维向量。支持英语、韩语和日语,适用于聚类、语义搜索等任务。模型采用MSELoss训练,结合AdamW优化器,展现出优秀的跨语言语义理解能力。研究人员和开发者可通过sentence-transformers库轻松集成此模型,为多语言自然语言处理项目提供有力支持。
BioBERT-mnli-snli-scinli-scitail-mednli-stsb - 基于BioBERT的多领域句子嵌入模型
BioBERTsentence-transformers语义相似度模型Github开源项目嵌入向量自然语言处理Huggingface
该项目是一个基于BioBERT的句子嵌入模型,通过多个领域数据集训练而成。模型能将文本映射至768维向量空间,适用于聚类和语义搜索等任务。它不仅在生物医学领域表现出色,还可应用于其他文本分析场景。模型支持sentence-transformers和HuggingFace Transformers两种调用方式,为用户提供了便捷的使用体验。