pgvectorscale：PostgreSQL高性能向量搜索的新利器

pgvectorscale

pgvectorscale：为PostgreSQL带来高性能向量搜索

在人工智能和机器学习技术日新月异的今天，向量搜索已成为许多AI应用的核心功能。为了满足开发者对高性能、低成本向量搜索的需求，Timescale公司推出了一款名为pgvectorscale的PostgreSQL扩展，旨在为大规模向量工作负载提供更高效的解决方案。本文将深入探讨pgvectorscale的特性、性能表现以及它为AI应用开发带来的潜在影响。

pgvectorscale的创新之处

pgvectorscale是在广受欢迎的pgvector扩展基础上开发而来的。它引入了两项关键创新：

StreamingDiskANN索引：这种新型索引受到微软DiskANN算法的启发，能够高效处理磁盘上的大规模数据集，实现高性能的近似最近邻(ANN)搜索。
统计二进制量化(SBQ)：这是Timescale研究人员开发的一种压缩技术，相比标准的二进制量化方法，SBQ在精度和性能之间取得了更好的平衡，从而实现更高效的存储和更快速的搜索。

pgvectorscale性能对比

性能表现令人瞩目

Timescale进行的基准测试结果令人印象深刻。在一个包含5000万个768维Cohere嵌入向量的数据集上，配备pgvector和pgvectorscale的PostgreSQL相比Pinecone的存储优化(s1)索引，在99%召回率的近似最近邻查询中实现了：

p95延迟降低28倍
查询吞吐量提高16倍
在AWS EC2上自托管时成本降低75%

这些数据充分说明了pgvectorscale在处理大规模向量数据时的卓越性能和成本效益。

技术实现与开源贡献

与C语言编写的pgvector不同，pgvectorscale采用Rust语言开发，并使用PGRX框架。这一选择不仅确保了高性能，还为PostgreSQL社区提供了一种新的贡献向量支持的方式。开发者可以更容易地参与到pgvectorscale的改进中，推动其不断发展。

使用pgvectorscale

要开始使用pgvectorscale，开发者可以选择以下几种方式：

使用预构建的Docker容器
从源代码安装
在Timescale Cloud服务中启用pgvectorscale

安装完成后，创建带有嵌入列的表格，并使用StreamingDiskANN索引即可开始进行高性能的向量搜索。例如：

CREATE TABLE IF NOT EXISTS document_embedding (
    id BIGINT PRIMARY KEY GENERATED BY DEFAULT AS IDENTITY,
    metadata JSONB,
    contents TEXT,
    embedding VECTOR(1536)
);

CREATE INDEX document_embedding_idx ON document_embedding
USING diskann (embedding);

SELECT *
FROM document_embedding
ORDER BY embedding <=> $1
LIMIT 10;

性能调优选项

pgvectorscale提供了多种调优参数，使用户可以根据特定需求优化性能：

索引构建时参数：如num_neighbors、search_list_size等，用于控制索引的质量和构建速度。
查询时参数：如diskann.query_rescore，允许用户在查询精度和速度之间进行权衡。

这些参数为开发者提供了灵活的性能调优选项，以适应不同的应用场景和需求。

pgvectorscale对AI应用开发的影响

pgvectorscale的出现为AI应用开发者带来了几个重要优势：

性能提升：显著降低的查询延迟和提高的吞吐量意味着AI应用可以更快速地响应用户请求，提供更流畅的用户体验。
成本效益：相比专门的向量数据库解决方案，pgvectorscale在保持高性能的同时大幅降低了运营成本，这对于初创公司和中小企业尤为重要。
简化技术栈：通过在PostgreSQL中实现高性能向量搜索，开发者可以避免使用多个数据存储系统，从而简化应用架构，降低维护复杂度。
SQL的灵活性：pgvectorscale允许开发者利用PostgreSQL强大的SQL功能，如复杂的WHERE子句、ORDER BY和JOIN操作，这在处理向量数据时提供了更大的灵活性。
开源生态系统：作为开源项目，pgvectorscale可以受益于社区的贡献，不断改进和扩展其功能。

实际应用案例

几家公司已经开始尝试使用pgvectorscale，并分享了他们的体验：

MarketReader的CTO Web Begole表示："将嵌入函数直接集成到数据库中是一个巨大的优势。以前更新保存的嵌入是一项繁琐的任务，但现在一切都集成在一起，变得更加简单和高效。"
OpenSauced的基础设施负责人John McBride认为："pgvectorscale和pgai是PostgreSQL AI生态系统的重要补充。统计二进制量化技术为向量搜索带来了惊人的性能，对我们扩展向量工作负载非常有价值。"
PolyPerception的CEO Nicolas Bream指出："Timescale集成方法的简单性和可扩展性让我们能够更快地将AI产品推向市场。"

这些反馈突显了pgvectorscale在实际应用中的价值，特别是在提高开发效率和系统性能方面。