#向量搜索

superduper - 将人工智能集成到您的数据库中,提升数据处理与分析能力
superduper.io人工智能数据库集成模型训练向量搜索Github开源项目热门
superduper.io 是一个强大的Python框架,专门为现有数据库直接集成人工智能模型、API 和向量搜索引擎而设计。此平台支持实时数据处理、可扩展的模型训练和简化的Python接口,使得 AI 集成变得简单高效。无需重复数据迁移,即可在您信赖的数据库中进行多模态向量搜索,以及存储和管理AI模型的输入输出。探索如何通过少量代码实现高级AI功能,并通过社区支持和丰富的文档资源加速您的AI项目。
pgvecto.rs - 高效灵活的PostgreSQL向量相似搜索生产级解决方案
pgvecto.rsPostgreSQLRust向量搜索SPLADEGithub开源项目
pgvecto.rs是一个Postgres扩展,提供超低延迟、高精度的向量相似搜索功能,支持稀疏向量和全文本搜索。该扩展由Rust编写,基于pgrx框架,具备完整的SQL支持和异步索引等特性,简化数据管理并提升性能。支持FP16/INT8数据类型和二进制向量索引,是生产环境中集成前沿模型的理想选择。
MyScaleDB - 优化大规模AI应用的部署与管理流程
MyScaleDBSQL vector databaseAI应用ClickHouse向量搜索Github开源项目
MyScaleDB是一个基于ClickHouse改进的SQL向量数据库,专为开发者设计,提供亲和的SQL操作界面,协助构建高度可扩展的AI应用。这个数据库完全兼容SQL,且具备出色的执行效率和可扩展性,能处理结构化数据、文本、向量、JSON以及地理空间数据等多种数据类型,轻松应对从小型到亿级规模的数据管理需求。
chatgpt-pgvector - 强化领域特化知识应用的AI聊天工具
OpenAI APISupabase向量搜索嵌入式向量ChatGPTGithub开源项目
chatgpt-pgvector是一款基于OpenAI嵌入式API与pgvector数据库技术的AI聊天应用,通过将文本数据转换为向量并执行向量搜索,有效提高了在专业领域的问答准确性与相关性。该项目利用Nextjs和Supabase平台,优化用户体验并增强聊天应用的整体功能。
marqo - 向量搜索引擎 ,实现文本和图像内容的矢量化处理及检索
Marqo向量搜索机器学习数据索引嵌入生成Github开源项目
Marqo 作为全面的端到端向量搜索引擎,不仅实现文本和图像内容的矢量化处理及检索,更支持最新机器学习模型。其简洁的API设计允许开发者轻松实行多样的语义搜索操作,且无需独立处理数据嵌入问题。Marqo 的云服务部署有效降低响应时间,同时提供可伸缩的计算资源、持续可靠的服务及全时技术支持。
vectordb - 本地化嵌入模型文本检索,优化AI应用性能
VectorDBKagi SearchAI特性本地数据存储向量搜索Github开源项目
VectorDB是一款简单轻量的本地嵌入模型文本检索工具,具有低延迟和小内存占用的特点,广泛应用于Kagi Search的AI功能。通过自动分块和嵌入搜索,VectorDB在完全本地运行的情况下提供了高效的内容过滤和检索功能。用户可以通过简单的代码示例快速加载数据并进行检索,还可根据需求选择不同的嵌入模型和分块策略,以适应多种应用场景。
embedditor - 开源向量搜索优化工具,编辑GPT嵌入
Embedditor嵌入向量搜索开放源代码GPTGithub开源项目
Embedditor是一款开源嵌入预处理编辑器,简便如微软Word,帮助编辑GPT/LLM嵌入,优化向量搜索并显著降低嵌入和存储成本。提高检索内容的关联性和准确性,支持自动化预处理,去除噪音信息和常用词汇。特性包括添加元数据、标记和筛选嵌入部分,提供美观的HTML标记和多种文件格式保存。本地部署,最大化数据控制并降低30%成本。
denser-retriever - 多技术融合的企业级AI检索工具
Denser RetrieverAI检索器xgboost向量搜索机器学习重排序Github开源项目
Denser Retriever是一款企业级AI检索工具,融合关键词搜索、向量数据库与机器学习重排功能,并通过xgboost技术优化。其在MTEB基准测试中表现出色,支持端到端应用,包括聊天机器人和语义搜索。项目支持Python安装,推荐使用Anaconda配置,附有详细文档和开发指南。
redis-arXiv-search - 简洁高效的arXiv论文语义搜索工具
RedisarXiv向量搜索单页应用嵌入Github开源项目
基于Redis Vector Search技术,实现高效的arXiv论文语义搜索。项目结合FastAPI、React和Docker等技术,并支持HuggingFace、OpenAI和Cohere的向量嵌入模型。用户只需简单设置,即可通过本地或云端的Redis部署轻松运行和定制该应用。
langchainrb - 通过Ruby开发LLM驱动的智能应用
Langchain.rbRuby聊天机器人向量搜索LLMGithub开源项目
Langchain.rb使用Ruby构建LLM驱动的应用程序,支持深度Rails集成。提供统一接口,兼容多种LLM提供商如OpenAI、GooglePalm、Cohere等,以及向量搜索数据库如Chroma、Pinecone和Weaviate。功能涵盖提示管理、输出解析、RAG系统构建等,并提供付费咨询服务,了解更多请联系开发者。
vearch - 云原生分布式向量数据库,支持高效相似性搜索
Vearch向量搜索分布式数据库相似度搜索云原生Github开源项目
Vearch是一个提供云原生分布式向量数据库的开源项目,专注于实现嵌入向量的高效相似性搜索。支持混合搜索与标量过滤,具备从百万对象中毫秒级别检索的高性能。同时,Vearch还具备复制和弹性扩展的能力。提供的文档资源包括Restful API、OpenAPI和多语言SDK,适用于构建可视化搜索系统和作为AI内存后端。
orama - 全方位搜索引擎解决方案,支持多设备多接口使用
Orama搜索引擎向量搜索混合搜索GeosearchGithub开源项目
Orama提供全文本、向量和混合搜索功能,适用于浏览器、服务器、移动应用和边缘设备,并且体积小于2KB。主要功能包括向量搜索、混合搜索、筛选器、地理搜索、字段提升、容错和精确匹配。通过插件系统,用户可以扩展功能,支持30种语言的词干提取和标记。Orama易于安装和使用,文档详细并有社区支持,是理想的轻量级搜索解决方案。
attu - 全面的Milvus管理与操作工具
AttuMilvus数据库管理向量搜索用户管理Github开源项目
Attu是一款全面的Milvus管理工具,帮助简化数据库、集合及分区的管理,支持向量嵌入的数据插入、索引和查询功能。通过向量搜索功能,快速验证结果,并轻松管理Milvus的权限和安全。Attu还提供系统拓扑视图,以优化Milvus架构管理。该工具支持多个Milvus版本,并可通过Docker和Kubernetes运行,此外还提供桌面应用版本。详细指南确保用户顺利安装、运行及使用Attu,提升使用体验。
sqlite-vss - 将SQLite扩展为高效向量相似度搜索引擎
SQLite扩展向量搜索Faiss嵌入虚拟表Github开源项目
sqlite-vss是基于Faiss的SQLite扩展,为数据库增添向量搜索功能。这个开源工具可用于开发语义搜索、推荐系统和问答应用。它支持自定义向量和多种嵌入方式,API设计类似FTS5。sqlite-vss兼容Python、Node.js等多种编程语言,可通过pip、npm等包管理器安装。该扩展为开发者提供了在SQLite中实现高效向量相似度搜索的简便解决方案。
sqlite-vec - 跨平台SQLite向量搜索扩展 支持多种编程语言
sqlite-vec向量搜索SQLite扩展嵌入式向量数据库Github开源项目
sqlite-vec是一个轻量高效的SQLite向量搜索扩展。该项目支持存储和查询多种类型的向量,采用纯C语言开发,无外部依赖,可在各种SQLite环境中运行。作为sqlite-vss的升级版,sqlite-vec新增了通过rowid子查询预过滤向量的功能。这个Mozilla Builders项目获得了多家公司赞助,旨在为本地AI应用提供强大的向量搜索能力。sqlite-vec支持Python、Node.js、Ruby等多种编程语言,并可与Datasette、rqlite等工具集成使用。
mongodb-demo - LlamaIndex和MongoDB构建智能问答系统实践
LlamaIndexMongoDBFlaskNext.js向量搜索Github开源项目
本项目展示了利用LlamaIndex和MongoDB构建智能问答系统的完整流程。从数据导入到索引创建,再到API开发和前端部署,涵盖了系统构建的各个环节。结合OpenAI语言模型和MongoDB向量搜索,实现了对特定数据集的复杂查询和智能回答。项目提供了一个端到端的工作流程,可供开发者参考创建AI驱动的应用。
llmsherpa - PDF智能解析与大语言模型应用框架
LLM SherpaLayoutPDFReaderPDF解析向量搜索文档结构分析Github开源项目
LLM Sherpa是一个开源项目,提供LayoutPDFReader工具用于智能解析PDF文档结构,包括章节、段落和表格。该工具支持精确分块并保留上下文信息,适用于向量搜索和生成式AI应用。项目提供API接口,便于集成到各类大语言模型应用中,如问答系统和文本摘要。LLM Sherpa简化了PDF处理流程,为开发者提供了高效的大语言模型应用开发框架。
pgvectorscale - PostgreSQL扩展提升AI应用向量搜索性能并优化存储成本
pgvectorscalePostgreSQL向量搜索性能优化AI应用Github开源项目
pgvectorscale是PostgreSQL的向量数据扩展,基于pgvector开发。它通过新的StreamingDiskANN索引和统计二进制量化压缩技术,提高了AI应用中嵌入向量的搜索性能和存储效率。与同类产品相比,pgvectorscale在保证相同召回率的情况下,显著降低了查询延迟,提高了吞吐量,同时大幅减少了存储成本。该项目采用Rust语言开发,为PostgreSQL社区贡献向量支持提供了新途径。
jvector - 高性能向量索引库 支持图索引和大规模搜索
ANN图索引向量搜索JVector产品量化Github开源项目
JVector是一个基于图的向量索引库,采用DiskANN设计并支持可组合扩展。它实现单层图和非阻塞并发控制,具有线性扩展能力。该库提供两阶段搜索、量化压缩和大于内存的索引构建功能,有效降低内存使用并提升搜索速度。JVector主要用于大规模近似最近邻搜索,为高维向量检索提供高效方案。
ai-infra-landscape - 生成式 AI 生态系统基础设施全景图
AI基础设施开源项目生态系统数据可视化向量搜索Github
ai-infra-landscape 项目展示了生成式 AI 生态系统基础设施的全景图,涵盖多个类别和子类别的 AI 基础设施项目。该开源项目支持社区贡献,允许通过 pull request 添加新项目。网站采用 landscape2 工具构建,提供直观的可视化界面,有助于全面了解 AI 基础设施生态系统。
gpts-works - 综合性GPTs平台 提供探索搜索和管理功能
GPTs Works第三方GPTs商店向量搜索浏览器扩展部署Github开源项目
GPTs Works是一个集成网站、索引系统和浏览器扩展的第三方GPTs平台。它提供AI助手的探索、搜索和管理功能,使用Vercel进行部署,Vercel Storage Postgres存储数据,Zilliz Cloud实现向量存储和搜索。该项目为GPTs生态系统的发展提供支持,满足AI爱好者和开发者的需求。
Qdrant - 开源高性能向量数据库与相似度搜索引擎
AI工具Qdrant向量搜索人工智能数据库开源技术
Qdrant是一款开源向量数据库和相似度搜索引擎,专注于高维向量处理和大规模AI应用。基于Rust开发,Qdrant提供高性能和可靠性,支持云原生扩展和高可用性。它易于部署使用,具有成本效益的存储选项。Qdrant适用于高级搜索、推荐系统、检索增强生成(RAG)、数据分析和异常检测等场景。作为新一代AI应用的基础,Qdrant能处理数十亿向量,满足企业级需求。
SciPhi Cloud - 综合RAG开发平台助力AI应用快速部署和优化
AI工具RAGSciPhi CloudAI应用向量搜索文档管理
SciPhi Cloud是一个专注于检索增强生成(RAG)应用的综合开发平台。平台集成了用户认证、文档管理、混合向量搜索等功能,支持多种文件格式快速导入,并应用最新RAG技术。内置分析工具助力开发者持续优化系统性能。SciPhi Cloud提供直观的界面和强大的API,可轻松集成各种LLM提供商,加速RAG应用的开发和部署过程,为AI创新提供全方位支持。
rag - 高效检索增强生成系统RAG实现
RAGtxtai向量搜索图搜索LLMGithub开源项目
RAG with txtai项目实现了一个基于Streamlit的检索增强生成应用。系统集成了向量RAG和图RAG两种方法,通过控制语言模型的上下文来增强回答的准确性。项目支持Docker容器和Python虚拟环境部署,可灵活添加自定义数据并通过环境变量配置模型参数。这一versatile的RAG系统适用于广泛的知识检索和智能问答应用场景。
cuvs - 高性能GPU向量搜索与聚类框架
cuVSGPU向量搜索聚类算法RAPIDSGithub开源项目
cuVS是一个开源的GPU向量搜索和聚类框架,专注于提供高性能的近似最近邻搜索和聚类功能。它支持C、C++、Python和Rust等多种编程语言,实现了CAGRA等先进算法。开发者可以直接使用cuVS,也可将其集成到其他系统中,从而在向量相似度搜索和聚类任务中充分利用GPU加速能力。
rag-fusion - 多重查询生成与排名融合的新型搜索技术
RAG-Fusion搜索技术查询生成向量搜索重排算法Github开源项目
RAG-Fusion是一种创新搜索方法,旨在弥合传统搜索与复杂人类查询间的差距。它结合检索增强生成(RAG)技术,通过多重查询生成和倒数等级融合重排搜索结果。该项目利用OpenAI的GPT模型生成多样化查询,进行向量搜索,并应用倒数等级融合算法重新排序相关文档。RAG-Fusion致力于挖掘隐藏在热门结果之外的深层知识,推动搜索技术迈向新前沿。
vectorai - 开源向量应用开发和分析框架
Vector AI向量搜索文档存储向量分析多媒体数据向量化Github开源项目
VectorAI是一个开源框架,用于快速开发基于向量的应用。它支持多媒体数据向量化、文档存储、向量相似度搜索和混合搜索。框架提供向量操作、聚合、聚类和分析功能,可用于构建神经搜索、语义搜索和个性化推荐系统。VectorAI设计简洁易用,同时具备良好的可扩展性,适用于不同规模的项目。需要注意,VectorAI项目已停止维护。开发者建议使用Relevance AI作为替代方案进行向量搜索。
lantern - PostgreSQL向量数据管理和搜索扩展
LanternPostgreSQL向量搜索数据库扩展HNSW索引Github开源项目
Lantern是一个PostgreSQL数据库扩展,专门用于向量数据管理和搜索。它引入了lantern_hnsw索引类型来加速向量查询,支持多种距离函数,并提供并行索引创建和外部索引生成等功能。Lantern与pgvector兼容,性能表现出色,并提供多种辅助函数以优化工作流程。
raft - 可复用CUDA函数库加速向量搜索与机器学习
RAFTGPU加速机器学习向量搜索CUDAGithub开源项目
RAFT是一个CUDA加速的C++头文件库,为机器学习和信息检索提供基础算法和原语。它实现了先进的向量相似度搜索方法,包括暴力搜索、IVF-Flat、IVF-PQ和CAGRA。RAFT还提供可重用原语,用于构建涵盖数据生成、模型评估、分类回归、聚类等领域的机器学习算法。通过跨项目复用和集中核心计算,RAFT加速了算法开发,并使未来优化能广泛应用于各种算法。
ai-video-search-engine - 智能视频内容检索与分析系统
AI视频搜索引擎视频内容索引视频转录向量搜索JigsawStackGithub开源项目
AI Video Search Engine项目是一种创新型视频搜索引擎,采用先进AI技术实现视频内容的深度索引和智能检索。该系统能够精确定位视频中的特定信息,提供上下文相关的搜索结果,并具备视频摘要生成和智能对话功能。项目整合了Supabase、Hasura和JigsawStack等技术,为视频内容检索提供高效、精准的解决方案,适用于教育、研究和信息获取等领域。
vector-search-class-notes - 向量搜索和数据库在人工智能长期记忆中的应用
向量搜索AI机器学习数据库嵌入Github开源项目
该项目深入探讨人工智能长期记忆技术中的向量搜索和数据库应用。课程内容涵盖向量搜索的理论基础和实际实现,包括文本和图像嵌入、低维向量搜索、降维技术、近似最近邻搜索、聚类和量化等关键主题。由Pinecone创始人Edo Liberty和FAISS主要开发者Matthijs Douze等行业专家主讲,为学习者提供全面而专业的向量搜索知识。
Vectorize - 将非结构化数据高效转换为优化的向量搜索索引
AI工具VectorizeRAG生成式AI向量搜索大型语言模型
Vectorize提供专为RAG设计的工具,将非结构化数据转化为优化的向量搜索索引。平台支持多种数据来源连接,帮助企业迅速构建生成式应用,提升客户体验和生产力。