Embedding Studio 项目介绍
项目概述
Embedding Studio 是一个创新的开源框架,旨在将嵌入式模型和向量数据库无缝转化为一个综合搜索引擎。它具备收集点击流、持续改善搜索体验和自动适应嵌入模型的内置功能,提供了一整套开箱即用的全周期搜索引擎解决方案。
主要功能
- 转换数据库:将向量数据库转化为全周期的搜索引擎。
- 用户反馈收集:如点击流等,帮助进一步优化搜索结果。
- 即时搜索体验升级:无需长时间等待,即可改善搜索体验(开发中)。
- 搜索质量监控:持续监控和评估搜索的质量(开发中)。
- 嵌入模型优化:通过迭代优化度量程序改善模型。
- 新版本使用:使用嵌入模型的新版本进行推理(开发中)。
- 数据预调优:提前在目录数据上微调你的嵌入(开发中)。
- 零样本查询解析:在结构化数据库与非结构化搜索中进行有效组合(开发中)。
高度可定制
用户可以自定义以下部分:
- 数据源
- 向量数据库
- 点击流数据库
- 嵌入模型
适用场景
Embedding Studio 适用于以下类型的业务和平台:
- 具有大量目录和丰富非结构化数据的企业。
- 重视个性化体验的客户平台。
- 内容动态变化、用户偏好持续演变的平台。
- 处理复杂搜索查询的平台。
- 需要在搜索过程中整合多种数据类型的平台。
- 通过用户交互不断优化的平台。
- 预算有限但需求强大的组织。
解决的挑战
Embedding Studio 并不是另一个向量数据库,而是一个可以将向量数据库转变为完整搜索引擎的框架。它可以帮助解决以下问题:
- 仅有产品目录无法进行演示。
- 静态搜索质量难以提升。
- 用户体验改进耗时过长。
- 索引更新缓慢且资源耗尽。
- 复杂搜索中结构化与非结构化数据难以结合。
- 需要解析结构化搜索中的非结构化查询。
- 新品容易被遗漏。
框架优势
Embedding Studio 的框架使用户能够根据体验不断优化模型,从而更快、更准确地生成用户查询的搜索结果。
- 红色曲线:标记的是典型的搜索解决方案,无增强功能,如全文搜索和最近邻搜索,搜索质量随时间不变。
- 橙色曲线:标注累积反馈后进行全面模型再训练的解决方案。其主要问题是再训练过程耗时且费用昂贵,缺乏反应能力。
- 靛蓝曲线:Embedding Studio 提供了一种方案,可以快速在旧版本和新版本的差异上重新训练模型,帮助系统实现平滑且更为相关的搜索质量曲线。
如何开始
用户可以通过执行以下步骤在本地启动一个预配置演示项目:
- 确保 Docker Compose 正常工作。
- 运行
docker compose up -d
启动所有服务。 - 模拟用户搜索会话。
- 执行微调模型。
至此,用户可以通过 API 和命令行对模型进行实时监控和调优,实现搜索引擎的持续改进。
Embedding Studio 欢迎社区贡献,并依据 Apache 许可证 2.0 提供,具体许可证内容见LICENSE。