项目介绍:Embedditor
Embedditor 是一个开源的嵌入式编辑器,它的作用类似于微软 Word,但专注于处理向量搜索技术。该工具设计目标是帮助用户更加高效地编辑和处理 GPT 或大语言模型(LLM)生成的嵌入,以最大化向量搜索的效果,同时显著降低嵌入和向量存储的成本。
丰富的编辑功能
Embedditor 提供了丰富的编辑界面,支持多种高效的编辑和处理操作,主要包括:
- 合并和拆分功能:仅需几次点击即可合并或拆分多个数据块。
- 元数据和令牌编辑:用户可以编辑嵌入的元数据和相关令牌。
- 剔除不必要内容:可以选择性地将不需要嵌入的单词、句子或部分内容排除。
- 选择嵌入部分:用户可以选择具体哪些部分需要进行嵌入处理。
- 添加额外信息:可以为嵌入添加额外信息,如 URL 链接或图片。
- 美观的 HTML 标记:为 AI 搜索结果生成美观的 HTML 标记。
- 多种文件格式支持:支持保存预处理后的嵌入文件为 .veml 或 .json 格式。
自动化预处理
Embedditor 具有自动化的预处理能力,常见特性包括:
- 噪声过滤:自动过滤矢量化过程中大量的噪声,如标点符号或停用词。
- TF-IDF 算法:移除那些不重要、常用的词语。
- 令牌标准化:在矢量化之前对嵌入令牌进行标准化处理。
项目的好处
使用 Embedditor,用户可以获得以下好处:
- 优化内容相关性:优化从向量数据库中检索的内容的相关性。
- 提高效率和准确性:在 AI 或 LLM 相关应用中提高效率及准确性。
- 更佳的视觉呈现:搜索结果提供更佳的视觉效果,包括图片和链接等。
- 成本效益:在嵌入和向量存储上最多可节省 30% 的成本。
- 数据控制:用户可轻松在本地或专用环境中部署 Embedditor,以实现对数据的全面控制。
- 兼容多种数据格式:预处理好的嵌入可以保存为 .json 或 .veml 格式以便在 LangChain、Chromat 或任何其他向量数据库中使用。
快速体验
用户可以在 IngestAI 上免费注册并体验 Embedditor。
界面与安装
用户可以通过访问 http://localhost:8080/ 来使用 Embedditor 的控制面板。安装过程包括复制 .env.example 文件,设置 OPENAI_API_KEY,然后运行 PHP 命令进行数据库迁移和存储链接等操作。
Embedditor 旨在为用户提供简化和高效的嵌入编辑体验,是一个为加速向量搜索设计的强大工具。无论你是数据科学家、应用开发者,还是对嵌入技术感兴趣的人员,Embedditor 都是一个值得探讨的项目。