Vectra: 本地化向量数据库解决方案

Vectra:打造本地化向量数据库的新选择

在人工智能和机器学习领域迅速发展的今天,向量数据库已成为许多应用不可或缺的组成部分。然而,对于一些特定场景,传统的云端向量数据库可能显得有些"大材小用"。为了满足这一需求,开发者Steven Ickman创造了Vectra - 一个基于Node.js的本地向量数据库解决方案。

什么是Vectra?

Vectra是一个为Node.js设计的本地向量数据库,其功能类似于Pinecone或Qdrant等知名向量数据库,但它的独特之处在于完全基于本地文件系统构建。每个Vectra索引都是磁盘上的一个文件夹,其中包含了存储向量和索引元数据的index.json文件,以及单独存储的完整元数据文件。

这种设计使得Vectra非常适合那些需要处理小型、相对静态的数据集的场景。例如,如果你需要在提示中包含一小部分固定的数据,或者想要实现无限的少样本学习,Vectra就是一个理想的选择。

Vectra的主要特性

本地文件存储: 所有数据都存储在本地文件系统中,无需依赖云服务。
高效的内存加载: 整个索引被加载到内存中,确保了快速的查询响应。
元数据过滤: 支持使用MongoDB查询操作符的子集进行元数据过滤。
相似度排序: 查询结果会按相似度排序返回。
跨语言兼容: 由于基于文件系统,不同语言的绑定可以读写同一个Vectra索引。

使用场景

Vectra特别适合以下场景:

需要在提示中包含小型静态数据集
实现无限少样本学习
对单个文档进行问答
需要快速、本地化向量检索的小型应用

需要注意的是,Vectra并不适合用作长期的聊天机器人记忘录等大规模、动态数据场景。对于这类需求,仍然建议使用成熟的云端向量数据库解决方案。

如何使用Vectra?

使用Vectra非常简单,以下是一个基本的使用流程:

安装Vectra:

npm install vectra

创建索引:

import { LocalIndex } from 'vectra';

const index = new LocalIndex(path.join(__dirname, '..', 'index'));

if (!await index.isIndexCreated()) {
    await index.createIndex();
}

添加项目:

async function addItem(text) {
    await index.insertItem({
        vector: await getVector(text),
        metadata: { text }
    });
}

await addItem('apple');
await addItem('oranges');
await addItem('red');
await addItem('blue');

查询项目:

async function query(text) {
    const vector = await getVector(text);
    const results = await index.queryItems(vector, 3);
    if (results.length > 0) {
        for (const result of results) {
            console.log(`[${result.score}] ${result.item.metadata.text}`);
        }
    } else {
        console.log(`No results found.`);
    }
}

await query('green');