NeumAI学习资料汇总 - 大规模向量嵌入管理框架

NeumAI

NeumAI简介 🚀

NeumAI是一个强大的数据平台,旨在帮助开发者利用现有数据来为大型语言模型提供上下文,实现检索增强生成(RAG)。它提供了一套全面的解决方案,可以从现有数据源(如文档存储和NoSQL数据库)中提取数据,将内容处理成向量嵌入,并将这些向量嵌入导入到向量数据库中用于相似性搜索。

NeumAI Hero

主要特性 ✨

🏭 高吞吐量分布式架构: 可处理数十亿数据点,高度并行化以优化嵌入生成和摄取。
🧱 内置数据连接器: 支持常见数据源、嵌入服务和向量存储。
🔄 实时同步: 确保数据源始终保持最新状态。
♻️ 可自定义的数据预处理: 支持加载、分块和选择等关键数据转换。
🤝 全面的数据管理: 支持元数据的混合检索,自动增强和跟踪元数据以提供丰富的检索体验。

快速入门 🚀

云端使用

在dashboard.neum.ai注册账号
参考快速入门指南开始使用

本地开发

安装neumai包:
```
pip install neumai
```

创建数据管道:

from neumai.DataConnectors.WebsiteConnector import WebsiteConnector
from neumai.Shared.Selector import Selector
from neumai.Loaders.HTMLLoader import HTMLLoader
from neumai.Chunkers.RecursiveChunker import RecursiveChunker
from neumai.Sources.SourceConnector import SourceConnector
from neumai.EmbedConnectors import OpenAIEmbed
from neumai.SinkConnectors import WeaviateSink
from neumai.Pipelines import Pipeline

# 配置数据源、嵌入模型和向量存储
website_connector = WebsiteConnector(
    url = "https://www.neum.ai/post/retrieval-augmented-generation-at-scale",
    selector = Selector(to_metadata=['url'])
)
source = SourceConnector(
    data_connector = website_connector, 
    loader = HTMLLoader(), 
    chunker = RecursiveChunker()
)
openai_embed = OpenAIEmbed(api_key = "<YOUR_OPENAI_API_KEY>")
weaviate_sink = WeaviateSink(
    url = "<YOUR_WEAVIATE_URL>",
    api_key = "<YOUR_WEAVIATE_API_KEY>",
    class_name = "<YOUR_CLASS_NAME>"
)

# 创建并运行管道
pipeline = Pipeline(sources=[source], embed=openai_embed, sink=weaviate_sink)
pipeline.run()

# 搜索示例
results = pipeline.search(
    query="What are the challenges with scaling RAG?", 
    number_of_results=3
)
for result in results:
    print(result.metadata)