使用Upstash Vector索引数百万维基百科文章
本仓库包含了我们使用Upstash Vector索引数百万维基百科文章项目的代码和文档,详情请参阅我们的博客文章。
项目概述
我们创建了一个语义搜索引擎和Upstash RAG聊天SDK,使用维基百科数据来展示Upstash Vector和RAG聊天SDK的功能。该项目包括:
- 准备和嵌入维基百科文章
- 使用Upstash Vector索引向量
- 构建维基百科语义搜索引擎
- 实现RAG聊天机器人
主要特点
- 索引了11种语言的超过1.44亿个维基百科文章向量
- 使用BGE-M3嵌入模型实现多语言支持
- 实现了具有跨语言能力的语义搜索
- 使用Upstash RAG聊天SDK创建了RAG聊天机器人
使用的技术
- Upstash Vector:用于存储和查询向量嵌入
- Upstash Redis:用于存储聊天会话
- Upstash RAG聊天SDK:用于构建RAG聊天应用
- SentenceTransformers:用于生成嵌入
- Meta-Llama-3-8B-Instruct:通过QStash LLM API作为LLM提供者
贡献
我们欢迎您为改进这个项目做出贡献。请随时提交问题或拉取请求。
致谢
- 感谢维基百科提供数据集
- 感谢Upstash提供向量数据库和RAG聊天SDK
- 感谢所有为本项目使用的开源库做出贡献的人
联系方式
如果您对项目或Upstash Vector有任何问题或反馈,请联系我们(添加联系信息)。
查看我们的在线演示,体验项目实际效果!