NucliaDB 项目介绍
NucliaDB 是一个功能强大的数据库,专为存储和搜索非结构化数据而设计。它作为一种开箱即用的混合搜索数据库,利用了向量、全文和图形索引,使得在处理复杂数据集时显得尤为出色。
核心特性
- 多样化的数据存储:支持存储文本、文件、向量、标签和注释。可以在数据库中进行文本搜索,输入一个词或一组词返回包含它们的资源。此外,还能够通过向量进行语义搜索,找到类似的句子。
- 兼容性与集成:可以将数据导出为与大多数 NLP 流水线兼容的格式(如 HuggingFace 数据集、pytorch 等),确保了与现有工具的广泛兼容。
- 丰富的API支持:支持云端数据和洞察提取,与 Nuclia 理解 API™ 和 Nuclia 学习 API™ 结合,实现数据的自动化训练和处理。
- 安全与多租户:拥有基于角色的安全系统以及上游代理身份验证,支持多租户管理。
- 灵活的数据存储:包括文本/HTML/Markdown 格式的支持,文本、文件、链接和对话等多种字段类型。并使用 PostgreSQL 作为存储层,支持 S3 兼容 API、GCS 和 Azure Blob 存储的 Blob 支持。
- 云原生及分布式搜索:数据存储复制、分布式搜索的能力让其可在多云环境中灵活部署。
体系结构
NucliaDB 的架构是从零开始为非结构化数据设计的,充分利用了诸如向量索引、关键字、图搜索和模糊搜索等技术,结合 Nuclia 的 Understanding API,使其能够将强大的 NLP 能力带入任何应用。
快速开始
用户可以通过阅读相关文档和教程轻松上手 NucliaDB,进行数据上传和管理。
项目与社区
NucliaDB 项目采用 AGPL V3 开源许可协议,允许用户自由使用并贡献代码。作为一个开源项目,它欢迎来自社区的各种贡献,包括代码、文档、问题反馈等等。
Nuclia 的商业模式主要依赖于其标准化 API,即 Nuclia 学习 API 和 Nuclia 理解 API,通过 AI 将非结构化数据转换为 NucliaDB 兼容的数据。此外,Nuclia 还提供基于多云基础设施的 NucliaDB 服务。
加入 Nuclia 社区可以通过 Slack 与其他用户交流,关注他们的博客和社交媒体动态,了解最新进展或加入团队。