#嵌入

pytorch-metric-learning - 高级度量学习工具库,适用于深度学习
Github开源项目模型训练PyTorch Metric LearningTripletMarginLossloss函数嵌入
PyTorch Metric Learning提供多种损失函数、挖掘器和评估工具,支持自定义和无监督学习。该库适用于各种训练和测试需求,配有详细文档和示例,适合高效嵌入空间计算的应用场景。
GenossGPT - 简化的开源替代方案,适用于OpenAI模型
Github开源项目开源嵌入GenossGPT4ALLAPI替代
Genoss是一个开源项目,使用GPT4ALL等模型,作为OpenAI GPT 3.5和4的替代方案。项目由Sicarator引导,支持GPT4ALL模型和嵌入。用户只需一行代码即可替换OpenAI ChatGPT API,获得相同的响应格式和功能。项目目前处于预发布阶段,未来计划支持更多模型及云服务提供商,方便用户本地或云端运行大模型。访问http://localhost:4321/docs了解更多信息。
langchain-rust - Rust版LangChain框架实现高效可组合LLM应用
Github开源项目LLM嵌入向量存储LangChain Rust文档加载器
langchain-rust是LangChain在Rust中的实现,用于构建可组合的LLM应用。支持多种LLM如OpenAi、Azure OpenAi和Ollama,提供嵌入、向量存储、链式操作和多种工具集成功能。简单配置后,用户可快速启动对话链、问答链等应用。
gritlm - 采用生成代表性指令微调技术的先进语言模型
Github开源项目语言模型嵌入Generative Representational Instruction TuningGritLM生成
本页面详细介绍了生成代表性指令微调(GRIT)技术,该技术训练大型语言模型同时处理生成和嵌入任务。GritLM 7B在大规模文本嵌入基准测试(MTEB)中树立了新标杆,并在多种生成任务中表现出色。GritLM 8x7B在开放生成语言模型中表现最佳,同时在嵌入任务中保持领先。GRIT结合生成和嵌入训练,无性能损失,并提高了检索增强生成(RAG)的速度超过60%。代码和模型均已免费开放,欢迎社区贡献和使用。
embedditor - 开源向量搜索优化工具,编辑GPT嵌入
Github开源项目GPT向量搜索嵌入开放源代码Embedditor
Embedditor是一款开源嵌入预处理编辑器,简便如微软Word,帮助编辑GPT/LLM嵌入,优化向量搜索并显著降低嵌入和存储成本。提高检索内容的关联性和准确性,支持自动化预处理,去除噪音信息和常用词汇。特性包括添加元数据、标记和筛选嵌入部分,提供美观的HTML标记和多种文件格式保存。本地部署,最大化数据控制并降低30%成本。
redis-arXiv-search - 简洁高效的arXiv论文语义搜索工具
Github开源项目向量搜索嵌入RedisarXiv单页应用
基于Redis Vector Search技术,实现高效的arXiv论文语义搜索。项目结合FastAPI、React和Docker等技术,并支持HuggingFace、OpenAI和Cohere的向量嵌入模型。用户只需简单设置,即可通过本地或云端的Redis部署轻松运行和定制该应用。
sqlite-vss - 将SQLite扩展为高效向量相似度搜索引擎
Github开源项目向量搜索嵌入SQLite扩展Faiss虚拟表
sqlite-vss是基于Faiss的SQLite扩展,为数据库增添向量搜索功能。这个开源工具可用于开发语义搜索、推荐系统和问答应用。它支持自定义向量和多种嵌入方式,API设计类似FTS5。sqlite-vss兼容Python、Node.js等多种编程语言,可通过pip、npm等包管理器安装。该扩展为开发者提供了在SQLite中实现高效向量相似度搜索的简便解决方案。
HugeCTR - GPU加速的大规模深度学习推荐系统框架
Github开源项目深度学习推荐系统嵌入GPU加速HugeCTR
HugeCTR是专为大规模深度学习模型设计的GPU加速推荐系统框架,支持高效训练和推理。框架在MLPerf等基准测试中性能卓越,提供直观的API接口,并具备大规模嵌入等核心功能。HugeCTR实现了模型并行训练、混合精度计算、嵌入缓存等先进特性,可高效部署超大规模嵌入的推荐模型。
buster - 定制化文档智能问答机器人
Github开源项目OpenAI聊天机器人嵌入文档问答Buster
Buster是一款基于OpenAI API的文档智能问答机器人。它可根据任意文档源定制,支持本地部署和自定义数据导入。Buster通过相似度匹配和GPT模型生成准确回答,并可通过BusterConfig灵活配置。这款开源工具旨在提高文档查询效率,为用户提供相关且精准的文档信息。
client-js - Mistral AI API的JavaScript客户端 简化AI开发
Github开源项目微调API嵌入聊天Mistral JavaScript Client
Mistral AI API的JavaScript客户端提供简洁接口,支持模型查询、聊天流式输出和嵌入生成。它还包含文件操作和微调作业管理功能,方便开发者集成Mistral AI技术。该客户端设计灵活,适用于多种AI应用开发场景,有助于简化开发流程。
Embedefy - 高效嵌入向量生成平台助力多元AI应用增强
AI应用AI工具嵌入向量空间数据表示Embedefy
Embedefy是一个专业的嵌入向量生成平台,旨在简化AI应用的增强过程。该平台采用开源模型,支持用户灵活切换至自有基础设施。Embedefy广泛适用于检索增强生成(RAG)、模型微调、语义搜索、聚类、推荐、异常检测和分类等领域。通过提供API和PostgreSQL扩展,Embedefy使嵌入向量功能能够无缝集成到应用程序和数据库中,为AI开发提供强大支持。Embedefy提供高性价比的嵌入向量生成服务,特别适合处理大规模数据集,为各类AI项目提供高效、经济的解决方案。
Neum AI - 开源框架助力构建高效RAG数据管道
数据管道向量数据库AI工具RAG嵌入Neum AI
Neum AI框架专注于简化RAG和语义搜索的数据基础设施构建。它整合了多种连接器,便于快速创建数据管道,高效处理各类数据。框架兼顾本地开发与云端部署,满足不同规模需求。其核心功能包括实时数据同步、全面可观测性和智能检索,有效提升数据管理效率。Neum AI为构建可靠、高性能的RAG系统提供了全面解决方案。
Public Prompts - 优质AI提示词资源库
AI绘图图像生成AI工具嵌入模型库提示词
Public Prompts专注收集和分享高质量AI提示词,提供丰富的AI模型库、提示词和嵌入式资源。网站包含Fine-Tuned模型、DreamBooth模型等多种资源,旨在帮助创作者和开发者提升AI工具使用效率。用户可以方便地浏览和使用各类提示词,实现提示词优化,满足多样化的AI创作需求。
EnergeticAI - Node.js应用中的高效开源AI解决方案
预训练模型性能优化AI工具嵌入EnergeticAI分类器
EnergeticAI是一款针对Node.js应用优化的TensorFlow.js库,专注于serverless函数性能。它具有快速冷启动、模块体积小和预训练模型等优势。库中包含英文嵌入、分类器等多种预训练模型,计划中还将提供语义搜索功能。相比TensorFlow.js,EnergeticAI的冷启动速度提升最高可达67倍。该库安装简便,使用Apache 2.0许可证,适用于构建推荐系统、文本分类等多种商业AI应用场景。
embetter - 提供简洁易用的文本和图像嵌入模型集成工具
Github开源项目自然语言处理机器学习计算机视觉嵌入embetter
embetter是一个兼容scikit-learn的Python库,专注于文本和图像嵌入模型。该库集成了Sentence-Transformers、CLIP等多种预训练模型,便于在机器学习流程中使用。其简洁的设计支持批量处理和增量学习,适用于快速概念验证和批量标记。embetter能与bulk和scikit-partial等工具良好配合,为开发者提供灵活的嵌入解决方案。
player.js - Vimeo视频播放器交互控制库
Github开源项目嵌入事件监听Vimeo播放器API视频播放控制
player.js是Vimeo官方开发的JavaScript库,用于控制嵌入网页的Vimeo视频播放器。它支持通过iframe、视频ID或HTML属性创建播放器实例,提供丰富的API方法控制播放、获取信息和监听事件。该库兼容现代浏览器,可通过npm或CDN使用,支持模块化开发。
radient - 多模态非结构化数据向量化和ETL开源工具
Github开源项目嵌入非结构化数据ETL向量化Radient
Radient是一款开源的非结构化数据处理工具,支持将音频、图形、图像、分子和文本等多种数据类型转换为嵌入向量。该项目不仅提供简单的向量化功能,还支持构建复杂的向量中心工作流。Radient特点包括易用性高、多模态支持、性能优化选项,以及完整的ETL流程构建能力,为开发者提供了高效处理非结构化数据的解决方案。
pdfGPT - 基于GPT的PDF智能问答工具 提高文档阅读效率
Github开源项目OpenAI语义搜索嵌入PDF处理pdfGPT
pdfGPT是一个开源的PDF文档智能问答工具。它采用文本分割和深度平均网络编码技术,实现PDF内容的语义搜索。通过整合OpenAI功能,pdfGPT生成精确答案并提供页码引用。系统兼容多种模型如GPT-4,同时提供友好界面和API。这一工具显著提高了PDF文档的信息获取效率,适用于研究、学习等多种场景。
vector-search-class-notes - 向量搜索和数据库在人工智能长期记忆中的应用
Github开源项目AI机器学习数据库向量搜索嵌入
该项目深入探讨人工智能长期记忆技术中的向量搜索和数据库应用。课程内容涵盖向量搜索的理论基础和实际实现,包括文本和图像嵌入、低维向量搜索、降维技术、近似最近邻搜索、聚类和量化等关键主题。由Pinecone创始人Edo Liberty和FAISS主要开发者Matthijs Douze等行业专家主讲,为学习者提供全面而专业的向量搜索知识。
bge-small-en-v1.5-quant - 高效量化嵌入模型提升自然语言处理性能
Github开源项目模型量化嵌入HuggingfaceMTEB稀疏性深度稀疏
bge-small-en-v1.5-quant是一种应用量化和稀疏技术的自然语言处理模型,适合资源受限环境,支持多种分类和检索任务,并在MTEB数据集上展现出坚实的表现。在AmazonPolarityClassification数据集上,实现了91.89%的准确率。其结合了量化和稀疏性技术,使得模型具备轻量化并易于在低算力设备上部署,是自然语言处理应用的理想选择。
bge-large-en-v1.5-quant - 量化ONNX模型增强句子编码效率和性能
Github开源项目模型DeepSparse推理量化嵌入HuggingfaceSparsify
该量化ONNX模型旨在利用DeepSparse加速bge-large-en-v1.5嵌入模型,提升句子编码效率。通过Sparsify实现的INT8量化和深度稀疏技术,在标准笔记本和AWS实例上分别实现了4.8倍和3.5倍的延迟性能改善。在多个数据集的测试中,该模型在分类和STS任务中展现出较高的编码效率。结合DeepSparse和ONNX技术栈,该模型适用于需要高效自然语言处理的应用场景。
specter - 文档级嵌入预训练模型,支持多种应用
Github开源项目模型嵌入Huggingface无微调文档级表示引文图SPECTER
SPECTER是一个为文档级嵌入预训练的语言模型,利用文献引用图进行训练,无需特定任务的微调即可应用。虽然SPECTER已被SPECTER2取代,仍用SciDocs进行评估,支持F1、准确率、MAP和NDCG等指标。