NeumAI简介 🚀
NeumAI是一个强大的数据平台,旨在帮助开发者利用现有数据来为大型语言模型提供上下文,实现检索增强生成(RAG)。它提供了一套全面的解决方案,可以从现有数据源(如文档存储和NoSQL数据库)中提取数据,将内容处理成向量嵌入,并将这些向量嵌入导入到向量数据库中用于相似性搜索。
主要特性 ✨
-
🏭 高吞吐量分布式架构: 可处理数十亿数据点,高度并行化以优化嵌入生成和摄取。
-
🧱 内置数据连接器: 支持常见数据源、嵌入服务和向量存储。
-
🔄 实时同步: 确保数据源始终保持最新状态。
-
♻️ 可自定义的数据预处理: 支持加载、分块和选择等关键数据转换。
-
🤝 全面的数据管理: 支持元数据的混合检索,自动增强和跟踪元数据以提供丰富的检索体验。
快速入门 🚀
云端使用
- 在dashboard.neum.ai注册账号
- 参考快速入门指南开始使用
本地开发
- 安装
neumai
包:pip install neumai
- 创建数据管道:
from neumai.DataConnectors.WebsiteConnector import WebsiteConnector from neumai.Shared.Selector import Selector from neumai.Loaders.HTMLLoader import HTMLLoader from neumai.Chunkers.RecursiveChunker import RecursiveChunker from neumai.Sources.SourceConnector import SourceConnector from neumai.EmbedConnectors import OpenAIEmbed from neumai.SinkConnectors import WeaviateSink from neumai.Pipelines import Pipeline # 配置数据源、嵌入模型和向量存储 website_connector = WebsiteConnector( url = "https://www.neum.ai/post/retrieval-augmented-generation-at-scale", selector = Selector(to_metadata=['url']) ) source = SourceConnector( data_connector = website_connector, loader = HTMLLoader(), chunker = RecursiveChunker() ) openai_embed = OpenAIEmbed(api_key = "<YOUR_OPENAI_API_KEY>") weaviate_sink = WeaviateSink( url = "<YOUR_WEAVIATE_URL>", api_key = "<YOUR_WEAVIATE_API_KEY>", class_name = "<YOUR_CLASS_NAME>" ) # 创建并运行管道 pipeline = Pipeline(sources=[source], embed=openai_embed, sink=weaviate_sink) pipeline.run() # 搜索示例 results = pipeline.search( query="What are the challenges with scaling RAG?", number_of_results=3 ) for result in results: print(result.metadata)
学习资源 📚
可用连接器 🔌
NeumAI提供了多种内置连接器,方便与各种数据源和服务集成:
数据源连接器
- Postgres
- 托管文件
- 网站
- S3
- Azure Blob
- Sharepoint
- Singlestore
- Supabase存储
嵌入连接器
- OpenAI嵌入
- Azure OpenAI嵌入
向量存储连接器
- Supabase postgres
- Weaviate
- Qdrant
- Pinecone
- Singlestore
结语
NeumAI为开发者提供了一个强大而灵活的框架,用于构建和管理大规模RAG管道。无论您是刚开始探索RAG,还是需要为现有项目扩展检索能力,NeumAI都能为您提供所需的工具和资源。立即开始使用NeumAI,释放您数据的全部潜力吧!