Promxy
发音为"promski"或"präm-sē"
高层概述
Promxy是一个Prometheus代理,它能将多个Prometheus分片呈现为用户可见的单一API端点。这极大地简化了大规模(当你有多个Prometheus主机时)Prometheus的操作和使用。Promxy提供这种统一的访问端点,无需对你的Prometheus基础设施进行任何边车部署、自定义构建或其他更改。
为什么选择Promxy?
简短版本: Prometheus本身不提供真正的高可用/集群支持。因此,最佳实践是运行多个(例如N个)具有相同配置的主机。同样,Prometheus也没有内置的查询联邦功能,这意味着你最终会在Grafana中得到N个数据源,这(1)对Grafana用户来说很混乱,(2)不支持跨数据源的聚合。Promxy通过"合并"重复主机的数据实现了Prometheus的高可用设置(所以如果一个主机有数据缺口,Promxy会用另一个来填补)。此外,Promxy为所有PromQL查询提供了单一数据源——这意味着你的Grafana可以只有一个数据源,而且你可以进行全局聚合的PromQL查询。
快速开始
发布的二进制文件可在releases页面上找到。
如果你想要修改Promxy(或只是运行自己的构建),你可以克隆并构建:
git clone git@github.com:jacksontj/promxy.git
cd promxy/cmd/promxy && go build -mod=vendor -tags netgo,builtinassets
仓库中提供了一个示例配置文件。
修改并准备好该配置后,只需运行Promxy:
./promxy --config=config.yaml
常见问题
什么是"ServerGroup"?
"ServerGroup"是一组配置相同的Prometheus主机。这是Prometheus基础设施的常见最佳实践,因为Prometheus本身不支持任何高可用/集群功能。这允许Promxy合并"ServerGroup"中多个主机的数据(直到它成为优先事项)。这使得Promxy能够"填补"时间序列中的空缺,比如在升级Prometheus或重启主机时创建的空缺。
promxy支持哪些版本的prometheus?
promxy在底层使用prometheus的/v1
API,这意味着promxy只需要该API存在即可。promxy已被用于早至prom 1.7和近至2.13的版本。如果您在使用任何带有/v1
API的prometheus版本时遇到问题,请提出issue。
promxy使用的是哪个版本的prometheus?这意味着什么?
promxy目前使用的是基于prometheus 2.24的一个分支版本。这个版本并不是特别重要,但它与promql功能(如子查询)和sd配置选项有关。
我的prometheus基础设施需要为使用promxy做哪些改变?
不需要任何改变。promxy只是一个聚合代理,向prometheus发送请求——这意味着它不需要对您现有的prometheus安装做任何改动。
我可以让promxy作为promxy的下游吗?
可以!promxy只是将其他prometheus API端点聚合在一起,所以您绝对可以对promxy进行分层。同样,您也可以混合使用prometheus API端点,例如,您可以将prometheus、promxy和VictoriaMetrics都作为promxy主机的下游——因为它们都具有与prometheus兼容的API。
使用promxy的查询性能如何?
promxy的目标是与它必须通信的最慢的prometheus服务器性能相同。如果您发现通过promxy的查询明显比直接在prometheus上慢,请提出issue,以便我们解决这个问题。
注意:如果您运行的prometheus版本<2.2,在执行访问大量数据的查询时可能会注意到"缓慢"的性能。这是由于prometheus中json序列化效率低下造成的。您可以通过配置promxy使用remote_read API来解决这个问题。
promxy如何知道要路由到哪个prometheus服务器?
promxy目前对所有配置的服务器组执行完全的分散-聚合操作。有计划减少分散-聚合查询,但在实践中,当前的"始终分散-聚合"实现并未成为瓶颈。
如何在promxy中使用告警/记录规则?
promxy只是您prometheus基础设施前面的一个聚合代理。因此,您可以使用promxy创建将在整个prometheus基础设施上执行的告警/记录规则。例如,如果您想知道全局错误率是否<10%,这在单个prometheus主机上是不可能的(没有联邦或重新抓取),但在promxy中就很简单。
注意:常规prometheus中的记录规则会写入其本地tsdb。promxy没有本地tsdb,所以如果您希望使用记录规则(或查看告警规则的指标),必须在promxy配置中定义remote_write端点(它将向该端点发送这些指标)。
当整个ServerGroup不可用时会发生什么?
在服务器组宕机的情况下,默认行为是返回错误。如果服务器组中的所有节点都宕机,结果数据可能不准确(缺少数据等)——所以我们更倾向于默认返回错误,而不是不准确的值(因为告警等可能依赖于它,我们不想隐藏问题)。
话虽如此,如果您想让某些或所有服务器组成为"可选"的(意味着错误将被忽略,我们仍会提供响应),您可以使用服务器组上的ignore_error选项来实现这一点。
问题/错误/其他
非常欢迎反馈意见。如果您发现任何错误、有功能请求,或只是有一般性问题,请随时提出issue!