#嵌入模型

api-for-open-llm - 开源大模型的统一后端接口
OpenAI ChatGPT API大语言模型环境变量模型支持嵌入模型Github开源项目
api-for-open-llm提供多种开源大模型的后端统一接口,以OpenAI ChatGPT API格式调用支持,如LLaMA、Baichuan等。支持流式响应、文字嵌入等功能,适用于多种应用需求。环境配置简洁,便于快速部署。
uform - 用于内容理解和生成的袖珍型多模态 AI
UForm多模态AI嵌入模型生成模型ONNXGithub开源项目
UForm是一个全面的多模态AI库,涵盖了从文本到图像,乃至视频剪辑的生成与理解等多种功能。支持多种语言,包含轻量级生成模型及高效的预训练变压模型,能够广泛应用于从服务器到智能手机等不同设备。主要优势包括快速的搜索性能、简易的模型部署过程及卓越的多语言应用能力,适用于快速嵌入、语义搜索、图像标题生成和视觉问答等多种场景。
Ad-papers - 探索最新计算广告学术论文与实用技术的开源集合与资源库
计算广告优化方法嵌入模型因子分解机预算控制Github开源项目
Ad-papers汇集了计算广告领域的学术论文、实用技术和业界分享,为广告行业的研究者和实践者提供理论支持和实践案例。涵盖优化方法、话题模型、大数据基础架构等多个子领域。开放性的开源属性强调项目的共享精神,适合广告技术开发者、数据科学家以及学术研究人员。
ModelCache - 优化大型语言模型响应的语义缓存工具
Codefuse-ModelCache语义缓存大语言模型多租户嵌入模型Github开源项目
ModelCache 是一种优化大型语言模型(LLMs)响应的语义缓存工具,通过缓存预计算的模型结果,迅速响应相似请求,提升用户体验。它支持多租户,并通过 Redis Search 将缓存与向量数据库的交互时间减至 10ms。该项目整合了多种嵌入框架及本地存储选项如 sqlite 和 faiss,便于用户迅速测试。其目标是降低推理部署成本、提升模型性能和提供可扩展的大型模型服务。
chrome-ai - 为Chrome浏览器内置Gemini Nano模型提供Vercel AI支持
Chrome AIVercel AIGemini Nano语言模型嵌入模型Github开源项目
Chrome AI模块为Chrome内置的Gemini Nano模型提供Vercel AI支持,允许开发者通过多种API接口调用语言模型。此模块支持文本生成和嵌入功能,并适配多种模型和自定义设置。适用于Chrome开发版以及未来的正式发布版本。
GraphRAG4OpenWebUI - 高级信息检索技术在 Open WebUI 的全面集成
GraphRAG4OpenWebUIGraphRAG信息检索Local LLM嵌入模型Github开源项目
GraphRAG4OpenWebUI 为 Open WebUI 提供了一个强大而高效的信息检索系统,集成了微软研究院的 GraphRAG 技术,支持本地搜索、全球搜索和 Tavily 搜索。该项目专为需要精确和全面搜索结果的开放网络用户界面设计,并且支持本地语言模型和嵌入模型,增强了灵活性和隐私性。通过多个 API 接口,用户可以轻松实现复杂的信息检索需求。
embedding_studio - 能将嵌入模型与向量数据库转换为搜索引擎的开源框架
Embedding Studio开源框架search engine嵌入模型向量数据库Github开源项目
Embedding Studio是一个开源框架,能将嵌入模型与向量数据库转换为搜索引擎,具备点击流收集、搜索体验改进和模型自动适应等功能。适合处理大量目录和非结构化数据的平台,帮助持续优化搜索效果。
pykeen - 知识图谱嵌入和评估的Python开源库
PyKEEN知识图谱嵌入模型Python安装Github开源项目
PyKEEN是一个专为知识图谱嵌入设计的Python开源库,支持多模态信息的训练与评估。通过pipeline函数提供高层次的可扩展功能,可以轻松训练和评估模型。内置37个数据集和多个模型,支持自定义数据集和模型扩展。集成了Optuna和PyTorch Lightning,适用于多种训练循环和评估方法。访问https://pykeen.readthedocs.io了解更多信息。
semantra - 智能语义搜索 深入挖掘文档核心内容
Semantra语义搜索文档分析嵌入模型命令行工具Github开源项目
Semantra是一款开源的语义搜索工具,专注于本地文档内容分析。它支持处理文本和PDF文件,通过交互式Web界面提供精准的语义查询功能。Semantra采用多种嵌入模型,可根据需求进行定制,并确保数据隐私和安全。这一工具适用于各类专业人士,如记者、研究人员、学生和历史学家等,帮助他们在大量文档中快速定位关键信息,提升工作效率。
fastc - 轻量级文本分类工具 适用于内存受限环境
fastc文本分类机器学习自然语言处理嵌入模型Github开源项目
fastc是一款为CPU环境优化的文本分类工具,专为内存受限场景设计。它采用高效蒸馏模型生成嵌入,结合逻辑回归或最近质心方法实现快速分类。该工具支持多分类器并行执行,具备模型训练、保存、加载和发布功能,并提供推理服务器部署选项。fastc为开发者提供了一个全面且高效的文本分类解决方案。
SemanticFinder - 浏览器端实时语义搜索与文档对话工具
SemanticFinder语义搜索transformers.js前端开发嵌入模型Github开源项目
SemanticFinder是一款基于transformers.js的浏览器端语义搜索和文档对话工具。它利用最新的嵌入模型,在浏览器中完成嵌入计算和余弦相似度计算,无需服务器端推理。用户可在2秒内快速搜索大型文本,如圣经或《悲惨世界》。该工具支持多语言,可自定义参数,并提供Chrome扩展程序版本。SemanticFinder将所有处理在本地完成,保护用户数据隐私,是一个高效灵活的语义搜索解决方案。
embedding - 开源说话人嵌入模型 改进x-vector架构提升语音识别效果
模型说话人识别Github开源项目Huggingface音频处理VoxCelebpyannote嵌入模型
这是一个基于pyannote.audio的开源说话人嵌入模型,采用改进的x-vector TDNN架构和SincNet特征。模型在VoxCeleb 1测试集上达到2.8%的等错误率,无需额外的语音活动检测或PLDA。支持GPU加速、音频片段嵌入提取和滑动窗口嵌入等功能,可用于说话人识别、验证和分类等任务。
jina-colbert-v2 - 多语言信息检索的新一代智能模型
模型语义搜索嵌入模型ColBERTGithub神经信息检索多语言检索开源项目Huggingface
jina-colbert-v2是一个多语言信息检索模型,支持128种语言,采用马特里奥什卡嵌入技术实现效率与精度的平衡。该模型具有8192个输入上下文标记和标记级嵌入的可解释性。在BEIR、MS MARCO等基准测试中,jina-colbert-v2展现出优于前代模型和其他主流方案的检索性能。
bge-base-en-v1.5-onnx-Q - BAAI/bge-base-en-v1.5的量化ONNX版本用于文本嵌入和相似度搜索
Huggingface模型相似度搜索BAAI/bge-base-en-v1.5FastEmbed嵌入模型Github开源项目文本分类
该项目提供了BAAI/bge-base-en-v1.5模型的量化ONNX版本,专注于文本嵌入和相似度搜索。通过FastEmbed库,用户可以轻松生成文本嵌入并进行相似度计算。量化后的模型在保持原有性能的基础上,显著提升了推理速度和资源效率,适用于需要高效文本处理的各种应用场景。
NoInstruct-small-Embedding-v0 - 小型嵌入模型在MTEB基准测试中展现卓越性能
模型文本分类嵌入模型相似度计算Githubsentence-transformersHuggingface开源项目信息检索
NoInstruct-small-Embedding-v0是一个小型嵌入模型,在MTEB基准测试中展现出优秀性能。该模型在文本相似度、分类和检索任务上表现突出,特别是在亚马逊评论分类中。基于sentence-transformers库开发,支持特征提取、句子相似度计算等多种NLP任务。在多个数据集上的出色表现体现了其在实际应用中的潜力。
jina-embeddings-v2-base-code - 多语言代码嵌入模型 支持长序列和高效推理
jina-embeddings-v2-base-codeHuggingface代码搜索自然语言处理嵌入模型模型多语言支持Github开源项目
jina-embeddings-v2-base-code是一款支持英语和30种常用编程语言的代码嵌入模型。它采用Bert架构和ALiBi技术,支持8192序列长度,适合处理长文档。该模型经过大规模代码数据训练,拥有1.61亿参数,可快速高效地生成嵌入。它在技术问答和代码搜索等场景表现出色,为开发者提供了实用的工具。
deepset-mxbai-embed-de-large-v1 - 高性能德语句子嵌入模型
模型嵌入模型变换器模型Githubsentence-transformers特征提取开源项目Huggingface自然语言处理
deepset-mxbai-embed-de-large-v1是一个专为德语开发的句子嵌入模型。该模型基于Sentence Transformers技术,可将德语文本转换为向量表示。在语义相似度和文本分类等任务中表现优异,为德语自然语言处理应用奠定基础。支持高效特征提取,适用于多种下游任务。
msmarco-MiniLM-L-6-v3 - 基于BERT的句子编码模型实现文本语义向量化和相似度计算
嵌入模型Github深度学习模型语义向量自然语言处理sentence-transformersHuggingface开源项目
msmarco-MiniLM-L-6-v3是一个基于sentence-transformers的句子编码模型,将文本映射至384维向量空间。模型基于BERT架构,支持文本相似度计算和聚类分析,可通过sentence-transformers或HuggingFace Transformers框架调用。
nomic-embed-vision-v1.5 - 高性能视觉嵌入模型实现多模态共享空间
模型训练开源项目nomic-embed-vision-v1.5模型GithubHuggingface嵌入模型多模态图像处理
nomic-embed-vision-v1.5是一款视觉嵌入模型,与nomic-embed-text-v1.5共享嵌入空间。该模型在ImageNet零样本和Datacomp基准测试中表现出色,优于OpenAI CLIP和Jina CLIP。它支持多模态检索,适用于文本到图像的检索场景。开发者可通过Nomic嵌入API或Transformers库使用该模型生成嵌入。nomic-embed-vision-v1.5为多模态检索增强生成(RAG)应用提供了有力支持。
all-MiniLM-L6-v2-similarity-es - 西班牙语句子相似性与聚类分析的高效模型
Github嵌入模型sentence-transformers开源项目模型RobertaHuggingface句子相似性相似句子数据集
该微调模型专注于西班牙语句子相似性任务,使用sentence-transformers框架,将语句转换为768维向量,支持语义搜索和聚类。便捷安装:通过pip获取sentence-transformers或使用HuggingFace Transformers进行高级处理。训练于西班牙语相似句子数据集,取得了80.1%的斯皮尔曼相关性。
bge-base-zh-v1.5 - 文本低维向量映射提升中文检索与分类效率
Github模型FlagEmbedding嵌入模型开源项目向量检索对比学习句子相似性Huggingface
FlagEmbedding是一个开源项目,可将文本转换为低维密集向量,用于多种任务,如检索、分类和语义搜索。bge-base-zh-v1.5版本优化了相似度分布,没有指令也能提升检索能力。支持中文和英文的处理,并与大型语言模型(LLM)无缝集成,bge-reranker交叉编码器模型为文档重新排名提供高精度结果。此外,最新的LLM-Embedder满足多样化检索增强需求,使用户在大数据环境中更高效地完成检索和分类。