#嵌入向量

examples - 高效分析非结构化数据的开源示例
Towhee数据处理机器学习嵌入向量图像搜索Github开源项目
Towhee Examples 是一个用于分析非结构化数据的开源案例库,包括反向图像搜索、反向视频搜索、音频分类、问答系统和分子搜索等多种应用场景。通过 Towhee 的机器学习模型管道,用户可以轻松生成各种嵌入向量。示例内容多样,涵盖图像动画、图像去重、文字图像搜索、视频分类、深度伪造检测和音频分类等。所有示例均可在本地环境中轻松运行,帮助开发者简化数据处理任务。
open-metric-learning - 开源的PyTorch度量学习框架 支持多模态嵌入训练
open-metric-learning度量学习嵌入向量PyTorch检索系统Github开源项目
open-metric-learning是一个基于PyTorch的开源度量学习框架,用于训练和验证高质量嵌入模型。它提供端到端流水线、实用案例和预训练模型库,支持图像和文本等多种模态。该框架具有统一的检索结果处理和评估方法,适用于人脸识别、商品搜索等嵌入学习任务。已被多家知名公司和机构采用,是一个功能丰富、易于上手的度量学习工具。
autofaiss - 自动构建高效Faiss近邻搜索索引
AutoFaissKNN索引Faiss嵌入向量相似度搜索Github开源项目
AutoFaiss是一个开源工具,用于自动创建高效的Faiss近邻搜索索引。该工具根据内存和查询速度限制,自动选择最佳索引参数,以获得最高召回率。AutoFaiss能处理大规模数据集,在有限内存下构建高效索引,实现毫秒级查询。它提供Python API和命令行接口,支持内存和磁盘上的嵌入向量,并可与PySpark集成进行分布式索引构建。
NEFTune - 革新语言模型指令微调的噪声嵌入技术
NEFTuneLLM微调嵌入向量噪声增强性能提升Github开源项目
NEFTune是一种创新的语言模型指令微调技术,通过向嵌入向量添加随机噪声来提升模型性能。这种方法无需额外计算资源或数据,却能显著改善对话质量。在AlpacaEval评估中,NEFTune将LLaMA-2-7B模型的性能从29.8%提升至64.7%。作为一种高效的LLM微调方案,NEFTune为模型优化提供了低成本、高收益的解决方案。
awadb - AI原生向量数据库 实时高效易用
AwaDB向量数据库AI嵌入向量实时搜索Github开源项目
AwaDB是一款为AI应用优化的向量数据库,无需复杂设置即可使用。它支持毫秒级实时搜索,基于多年生产经验打造,稳定可靠。AwaDB可本地运行或Docker部署,提供Python SDK和RESTful API,轻松处理文本、图像等非结构化数据的向量嵌入和检索。适用于各类AI应用场景,简化向量数据管理和检索流程。
sentence-transformers-multilingual-e5-large - 多语言句子嵌入模型适用于语义搜索和文本相似度分析
模型Github多语言模型开源项目Huggingface语义相似度嵌入向量sentence-transformers自然语言处理
sentence-transformers-multilingual-e5-large是一个多语言句子嵌入模型,将句子和段落映射到1024维向量空间。该模型基于sentence-transformers库构建,适用于聚类、语义搜索等任务。支持多语言处理,可通过Python代码轻松调用。模型在Sentence Embeddings Benchmark上进行了评估,为自然语言处理应用提供了有效的文本表示方法。
specter2_base - 科学文献嵌入模型支持多任务适配
嵌入向量科学文献Huggingface模型SPECTER2Github开源项目自然语言处理语义搜索
SPECTER2是一个生成科学文献嵌入的开源模型。它基于600万篇论文引用关系训练,通过适配器支持分类、回归、近似检索和即时搜索等任务。该模型在SciRepEval和MDCR等基准测试中表现出色,为文献检索、分类和推荐等应用提供高质量的文献表示。
stsb-mpnet-base-v2 - 将句子映射至向量空间的自然语言处理模型
嵌入向量特征提取Huggingface模型Github语义相似度开源项目sentence-transformers自然语言处理
stsb-mpnet-base-v2是一个基于sentence-transformers的模型,能够将句子和段落转换为768维向量。该模型适用于文本聚类和语义搜索等任务,具有使用简便和性能优异的特点。它采用MPNet架构和平均池化方法生成句子嵌入,在多项评估中表现良好,可广泛应用于自然语言处理领域。
msmarco-cotmae-MiniLM-L12_en-ko-ja - 多语言语义理解和向量化模型
模型模型训练Githubsentence-transformers开源项目嵌入向量语义相似度Huggingface自然语言处理
这是一个基于sentence-transformers框架的多语言语义理解模型,可将句子和段落映射为1536维向量。支持英语、韩语和日语,适用于聚类、语义搜索等任务。模型采用MSELoss训练,结合AdamW优化器,展现出优秀的跨语言语义理解能力。研究人员和开发者可通过sentence-transformers库轻松集成此模型,为多语言自然语言处理项目提供有力支持。
BioBERT-mnli-snli-scinli-scitail-mednli-stsb - 基于BioBERT的多领域句子嵌入模型
BioBERTsentence-transformers语义相似度模型Github开源项目嵌入向量自然语言处理Huggingface
该项目是一个基于BioBERT的句子嵌入模型,通过多个领域数据集训练而成。模型能将文本映射至768维向量空间,适用于聚类和语义搜索等任务。它不仅在生物医学领域表现出色,还可应用于其他文本分析场景。模型支持sentence-transformers和HuggingFace Transformers两种调用方式,为用户提供了便捷的使用体验。