#嵌入

pytorch-metric-learning - 高级度量学习工具库，适用于深度学习

Github开源项目模型训练PyTorch Metric LearningTripletMarginLossloss函数嵌入

PyTorch Metric Learning提供多种损失函数、挖掘器和评估工具，支持自定义和无监督学习。该库适用于各种训练和测试需求，配有详细文档和示例，适合高效嵌入空间计算的应用场景。

GenossGPT - 简化的开源替代方案，适用于OpenAI模型

Github开源项目开源嵌入GenossGPT4ALLAPI替代

Genoss是一个开源项目，使用GPT4ALL等模型，作为OpenAI GPT 3.5和4的替代方案。项目由Sicarator引导，支持GPT4ALL模型和嵌入。用户只需一行代码即可替换OpenAI ChatGPT API，获得相同的响应格式和功能。项目目前处于预发布阶段，未来计划支持更多模型及云服务提供商，方便用户本地或云端运行大模型。访问http://localhost:4321/docs了解更多信息。

langchain-rust - Rust版LangChain框架实现高效可组合LLM应用

Github开源项目LLM嵌入向量存储LangChain Rust文档加载器

langchain-rust是LangChain在Rust中的实现，用于构建可组合的LLM应用。支持多种LLM如OpenAi、Azure OpenAi和Ollama，提供嵌入、向量存储、链式操作和多种工具集成功能。简单配置后，用户可快速启动对话链、问答链等应用。

gritlm - 采用生成代表性指令微调技术的先进语言模型

Github开源项目语言模型嵌入Generative Representational Instruction TuningGritLM生成

本页面详细介绍了生成代表性指令微调（GRIT）技术，该技术训练大型语言模型同时处理生成和嵌入任务。GritLM 7B在大规模文本嵌入基准测试（MTEB）中树立了新标杆，并在多种生成任务中表现出色。GritLM 8x7B在开放生成语言模型中表现最佳，同时在嵌入任务中保持领先。GRIT结合生成和嵌入训练，无性能损失，并提高了检索增强生成（RAG）的速度超过60%。代码和模型均已免费开放，欢迎社区贡献和使用。

embedditor - 开源向量搜索优化工具，编辑GPT嵌入

Github开源项目GPT向量搜索嵌入开放源代码Embedditor

Embedditor是一款开源嵌入预处理编辑器，简便如微软Word，帮助编辑GPT/LLM嵌入，优化向量搜索并显著降低嵌入和存储成本。提高检索内容的关联性和准确性，支持自动化预处理，去除噪音信息和常用词汇。特性包括添加元数据、标记和筛选嵌入部分，提供美观的HTML标记和多种文件格式保存。本地部署，最大化数据控制并降低30%成本。

redis-arXiv-search - 简洁高效的arXiv论文语义搜索工具

Github开源项目向量搜索嵌入RedisarXiv单页应用

基于Redis Vector Search技术，实现高效的arXiv论文语义搜索。项目结合FastAPI、React和Docker等技术，并支持HuggingFace、OpenAI和Cohere的向量嵌入模型。用户只需简单设置，即可通过本地或云端的Redis部署轻松运行和定制该应用。

sqlite-vss - 将SQLite扩展为高效向量相似度搜索引擎

Github开源项目向量搜索嵌入SQLite扩展Faiss虚拟表

sqlite-vss是基于Faiss的SQLite扩展,为数据库增添向量搜索功能。这个开源工具可用于开发语义搜索、推荐系统和问答应用。它支持自定义向量和多种嵌入方式,API设计类似FTS5。sqlite-vss兼容Python、Node.js等多种编程语言,可通过pip、npm等包管理器安装。该扩展为开发者提供了在SQLite中实现高效向量相似度搜索的简便解决方案。

HugeCTR - GPU加速的大规模深度学习推荐系统框架

Github开源项目深度学习推荐系统嵌入GPU加速HugeCTR

HugeCTR是专为大规模深度学习模型设计的GPU加速推荐系统框架,支持高效训练和推理。框架在MLPerf等基准测试中性能卓越,提供直观的API接口,并具备大规模嵌入等核心功能。HugeCTR实现了模型并行训练、混合精度计算、嵌入缓存等先进特性,可高效部署超大规模嵌入的推荐模型。

buster - 定制化文档智能问答机器人

Github开源项目OpenAI聊天机器人嵌入文档问答Buster

Buster是一款基于OpenAI API的文档智能问答机器人。它可根据任意文档源定制，支持本地部署和自定义数据导入。Buster通过相似度匹配和GPT模型生成准确回答，并可通过BusterConfig灵活配置。这款开源工具旨在提高文档查询效率，为用户提供相关且精准的文档信息。

client-js - Mistral AI API的JavaScript客户端简化AI开发

Github开源项目微调API嵌入聊天Mistral JavaScript Client

Mistral AI API的JavaScript客户端提供简洁接口，支持模型查询、聊天流式输出和嵌入生成。它还包含文件操作和微调作业管理功能，方便开发者集成Mistral AI技术。该客户端设计灵活，适用于多种AI应用开发场景，有助于简化开发流程。

Embedefy - 高效嵌入向量生成平台助力多元AI应用增强

AI应用AI工具嵌入向量空间数据表示Embedefy

Embedefy是一个专业的嵌入向量生成平台，旨在简化AI应用的增强过程。该平台采用开源模型，支持用户灵活切换至自有基础设施。Embedefy广泛适用于检索增强生成(RAG)、模型微调、语义搜索、聚类、推荐、异常检测和分类等领域。通过提供API和PostgreSQL扩展，Embedefy使嵌入向量功能能够无缝集成到应用程序和数据库中，为AI开发提供强大支持。Embedefy提供高性价比的嵌入向量生成服务，特别适合处理大规模数据集，为各类AI项目提供高效、经济的解决方案。

Neum AI - 开源框架助力构建高效RAG数据管道

数据管道向量数据库AI工具RAG嵌入Neum AI

Neum AI框架专注于简化RAG和语义搜索的数据基础设施构建。它整合了多种连接器，便于快速创建数据管道，高效处理各类数据。框架兼顾本地开发与云端部署，满足不同规模需求。其核心功能包括实时数据同步、全面可观测性和智能检索，有效提升数据管理效率。Neum AI为构建可靠、高性能的RAG系统提供了全面解决方案。

Public Prompts - 优质AI提示词资源库

AI绘图图像生成AI工具嵌入模型库提示词

Public Prompts专注收集和分享高质量AI提示词，提供丰富的AI模型库、提示词和嵌入式资源。网站包含Fine-Tuned模型、DreamBooth模型等多种资源，旨在帮助创作者和开发者提升AI工具使用效率。用户可以方便地浏览和使用各类提示词，实现提示词优化，满足多样化的AI创作需求。

EnergeticAI - Node.js应用中的高效开源AI解决方案

预训练模型性能优化AI工具嵌入EnergeticAI分类器

EnergeticAI是一款针对Node.js应用优化的TensorFlow.js库，专注于serverless函数性能。它具有快速冷启动、模块体积小和预训练模型等优势。库中包含英文嵌入、分类器等多种预训练模型，计划中还将提供语义搜索功能。相比TensorFlow.js，EnergeticAI的冷启动速度提升最高可达67倍。该库安装简便，使用Apache 2.0许可证，适用于构建推荐系统、文本分类等多种商业AI应用场景。

embetter - 提供简洁易用的文本和图像嵌入模型集成工具

Github开源项目自然语言处理机器学习计算机视觉嵌入embetter

embetter是一个兼容scikit-learn的Python库，专注于文本和图像嵌入模型。该库集成了Sentence-Transformers、CLIP等多种预训练模型，便于在机器学习流程中使用。其简洁的设计支持批量处理和增量学习，适用于快速概念验证和批量标记。embetter能与bulk和scikit-partial等工具良好配合，为开发者提供灵活的嵌入解决方案。

player.js - Vimeo视频播放器交互控制库

Github开源项目嵌入事件监听Vimeo播放器API视频播放控制

player.js是Vimeo官方开发的JavaScript库，用于控制嵌入网页的Vimeo视频播放器。它支持通过iframe、视频ID或HTML属性创建播放器实例，提供丰富的API方法控制播放、获取信息和监听事件。该库兼容现代浏览器，可通过npm或CDN使用，支持模块化开发。

radient - 多模态非结构化数据向量化和ETL开源工具

Github开源项目嵌入非结构化数据ETL向量化Radient

Radient是一款开源的非结构化数据处理工具，支持将音频、图形、图像、分子和文本等多种数据类型转换为嵌入向量。该项目不仅提供简单的向量化功能，还支持构建复杂的向量中心工作流。Radient特点包括易用性高、多模态支持、性能优化选项，以及完整的ETL流程构建能力，为开发者提供了高效处理非结构化数据的解决方案。

pdfGPT - 基于GPT的PDF智能问答工具提高文档阅读效率

Github开源项目OpenAI语义搜索嵌入PDF处理pdfGPT

pdfGPT是一个开源的PDF文档智能问答工具。它采用文本分割和深度平均网络编码技术，实现PDF内容的语义搜索。通过整合OpenAI功能，pdfGPT生成精确答案并提供页码引用。系统兼容多种模型如GPT-4，同时提供友好界面和API。这一工具显著提高了PDF文档的信息获取效率，适用于研究、学习等多种场景。

vector-search-class-notes - 向量搜索和数据库在人工智能长期记忆中的应用

Github开源项目AI机器学习数据库向量搜索嵌入

该项目深入探讨人工智能长期记忆技术中的向量搜索和数据库应用。课程内容涵盖向量搜索的理论基础和实际实现，包括文本和图像嵌入、低维向量搜索、降维技术、近似最近邻搜索、聚类和量化等关键主题。由Pinecone创始人Edo Liberty和FAISS主要开发者Matthijs Douze等行业专家主讲，为学习者提供全面而专业的向量搜索知识。

bge-small-en-v1.5-quant - 高效量化嵌入模型提升自然语言处理性能

Github开源项目模型量化嵌入HuggingfaceMTEB稀疏性深度稀疏

bge-small-en-v1.5-quant是一种应用量化和稀疏技术的自然语言处理模型，适合资源受限环境，支持多种分类和检索任务，并在MTEB数据集上展现出坚实的表现。在AmazonPolarityClassification数据集上，实现了91.89%的准确率。其结合了量化和稀疏性技术，使得模型具备轻量化并易于在低算力设备上部署，是自然语言处理应用的理想选择。

bge-large-en-v1.5-quant - 量化ONNX模型增强句子编码效率和性能

Github开源项目模型DeepSparse推理量化嵌入HuggingfaceSparsify

该量化ONNX模型旨在利用DeepSparse加速bge-large-en-v1.5嵌入模型，提升句子编码效率。通过Sparsify实现的INT8量化和深度稀疏技术，在标准笔记本和AWS实例上分别实现了4.8倍和3.5倍的延迟性能改善。在多个数据集的测试中，该模型在分类和STS任务中展现出较高的编码效率。结合DeepSparse和ONNX技术栈，该模型适用于需要高效自然语言处理的应用场景。

specter - 文档级嵌入预训练模型，支持多种应用

Github开源项目模型嵌入Huggingface无微调文档级表示引文图SPECTER

SPECTER是一个为文档级嵌入预训练的语言模型，利用文献引用图进行训练，无需特定任务的微调即可应用。虽然SPECTER已被SPECTER2取代，仍用SciDocs进行评估，支持F1、准确率、MAP和NDCG等指标。

相关文章

Article Cover

PyTorch Metric Learning：深度度量学习的强大工具

Article Cover

GenossGPT：开源AI模型的统一接口

Article Cover

GritLM:统一生成和表示学习的突破性语言模型

Article Cover

LangChain-Rust: 构建基于大语言模型的Rust应用程序的强大工具

Article Cover

Embedditor：革新LLM向量嵌入编辑的开源GUI工具

Article Cover

sqlite-vss: SQLite的高效向量搜索扩展

Article Cover

HugeCTR: GPU加速的大规模推荐系统训练和推理框架

Article Cover

Buster: 智能问答助手，让文档交互更轻松

Article Cover

Embetter: 快速构建嵌入式学习流水线的强大工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号