YACE - 又一个 CloudWatch 导出器
YACE,即"又一个 CloudWatch 导出器",是一个用于 AWS CloudWatch 指标的 Prometheus 导出器。它使用 Go 语言编写,并使用官方 AWS SDK。
该项目最初由 Thomas Peitz 在 InVision.de 工作期间创建,后来移至公司仓库之外。完整的品牌重塑故事可以在这里阅读。
替代方案
如果你更喜欢 Java 实现,可以考虑使用官方的 CloudWatch 导出器。
项目状态
当 YACE 版本低于 1.0.0 时,预计任何新版本都可能引入重大变更。我们会在 CHANGELOG.md 中记录变更。
在可行的情况下,功能将被弃用而不是立即更改或删除。这意味着 YACE 将继续工作但可能会记录警告信息。预计被弃用的功能将在接下来的 2/3 个版本中永久更改/删除。
安全
在 SECURITY.md 中了解更多如何报告安全漏洞的信息。
支持的版本
只有最新版本会获得安全更新。我们不会支持旧版本。
功能
- 停止担心您的 AWS ID - 通过标签自动发现资源
- 结构化日志记录(json 和 logfmt)
- 通过正则表达式过滤监控资源
- 自动为指标添加标签标签
- 自动为指标添加维度标签
- 允许导出 0,即使 CloudWatch 返回 nil
- 允许使用 CloudWatch 时间戳导出指标(默认禁用)
- 所有 CloudWatch 指标的静态指标支持,无需自动发现
- 使用跨账户角色从多个 AWS 账户拉取数据
- 可作为外部应用程序中的库使用
- 支持使用 CloudWatch 维度抓取自定义命名空间指标
- 通过标签支持自动发现的服务:
/aws/sagemaker/Endpoints
- Sagemaker 端点/aws/sagemaker/InferenceRecommendationsJobs
- Sagemaker 推理推荐器作业/aws/sagemaker/ProcessingJobs
- Sagemaker 处理作业/aws/sagemaker/TrainingJobs
- Sagemaker 训练作业/aws/sagemaker/TransformJobs
- Sagemaker 批量转换作业AmazonMWAA
- 托管 Apache AirflowAWS/ACMPrivateCA
- ACM 私有 CAAWS/AmazonMQ
- 托管消息代理服务AWS/AppRunner
- 托管容器应用服务AWS/AOSS
- OpenSearch ServerlessAWS/ApiGateway
- API 网关(V1 和 V2)AWS/ApplicationELB
- 应用负载均衡器AWS/AppStream
- AppStreamAWS/AppSync
- AppSyncAWS/Athena
- AthenaAWS/AutoScaling
- 自动扩展组AWS/Backup
- 备份AWS/Bedrock
- 生成式 AIAWS/Billing
- 计费AWS/Cassandra
- CassandraAWS/CertificateManager
- 证书管理器AWS/ClientVPN
- 基于客户端的 VPNAWS/CloudFront
- CloudFrontAWS/Cognito
- CognitoAWS/DataSync
- DataSyncAWS/DDoSProtection
- 分布式拒绝服务(DDoS)保护服务AWS/DMS
- 数据库迁移服务AWS/DocDB
- DocumentDB(与 MongoDB 兼容)AWS/DX
- Direct ConnectAWS/DynamoDB
- NoSQL 键值数据库AWS/EBS
- 弹性块存储AWS/EC2
- 弹性计算云AWS/EC2Spot
- 竞价型实例的弹性计算云AWS/ECS
- 弹性容器服务(服务指标)AWS/EFS
- 弹性文件系统AWS/ElastiCache
- ElastiCacheAWS/ElasticBeanstalk
- Elastic BeanstalkAWS/ElasticMapReduce
- Elastic MapReduceAWS/ELB
- 弹性负载均衡器AWS/EMRServerless
- Amazon EMR ServerlessAWS/ES
- ElasticSearchAWS/Events
- EventBridgeAWS/Firehose
- 托管流服务AWS/FSx
- FSx 文件系统AWS/GameLift
- GameLiftAWS/GatewayELB
- 网关负载均衡器AWS/GlobalAccelerator
- AWS 全球加速器AWS/IoT
- 物联网AWS/IPAM
- IP 地址管理器AWS/Kafka
- 托管 Apache KafkaAWS/KafkaConnect
- AWS MSK 连接器AWS/Kinesis
- Kinesis 数据流AWS/KinesisAnalytics
- Kinesis Data Analytics for SQL 应用程序AWS/KMS
- 密钥管理服务AWS/Lambda
- Lambda 函数AWS/Logs
- CloudWatch 日志AWS/MediaConnect
- AWS Elemental MediaConnectAWS/MediaConvert
- AWS Elemental MediaConvertAWS/MediaLive
- AWS Elemental MediaLiveAWS/MediaPackage
- AWS Elemental MediaPackageAWS/MediaTailor
- AWS Elemental MediaTailorAWS/MemoryDB
- AWS MemoryDBAWS/MWAA
- 托管 Apache Airflow(容器、队列和数据库指标)AWS/NATGateway
- NAT 网关AWS/Neptune
- NeptuneAWS/NetworkELB
- 网络负载均衡器AWS/NetworkFirewall
- 网络防火墙AWS/PrivateLinkEndpoints
- VPC 终端节点AWS/PrivateLinkServices
- VPC 终端节点服务AWS/Prometheus
- 托管 Prometheus 服务AWS/QLDB
- 量子账本数据库AWS/RDS
- 关系数据库服务AWS/Redshift
- Redshift 数据库AWS/Route53
- Route53 健康检查AWS/Route53Resolver
- Route53 解析器AWS/RUM
- 实时用户监控AWS/S3
- 对象存储AWS/Sagemaker/ModelBuildingPipeline
- Sagemaker 模型构建管道AWS/SageMaker
- Sagemaker 调用AWS/SecretsManager
- 秘密管理器AWS/SES
- 简单电子邮件服务AWS/SNS
- 简单通知服务AWS/SQS
- 简单队列服务AWS/States
- Step FunctionsAWS/StorageGateway
- 本地访问云存储AWS/TransitGateway
- 中转网关AWS/TrustedAdvisor
- Trusted AdvisorAWS/Usage
- 某些 AWS 资源和 API 的使用情况AWS/VPN
- VPN 连接
AWS/WAFV2
- Web应用防火墙v2AWS/WorkSpaces
- WorkSpaces虚拟桌面CWAgent
- CloudWatch代理ECS/ContainerInsights
- ECS/ContainerInsights(Fargate指标)Glue
- AWS Glue作业ContainerInsights
- EKS ContainerInsights(依赖于CloudWatch代理)
功能标志
为了提供向后兼容性,YACE 的一些新功能或破坏性变更可能会受功能标志保护。详情请参阅 docs/feature_flags.md。
安装和运行
请参阅安装指南。
身份验证
导出器需要在能够访问 AWS 的环境中运行。导出器使用 AWS SDK for Go 并支持通过 AWS 默认凭证链 提供身份验证。无论使用何种方法获取凭证,导出器都需要一些权限才能正常工作。
作为快速入门,可以使用以下 IAM 策略来授予 YACE 所需的所有权限
{
"Version": "2012-10-17",
"Statement": [
{
"Action": [
"tag:GetResources",
"cloudwatch:GetMetricData",
"cloudwatch:GetMetricStatistics",
"cloudwatch:ListMetrics",
"apigateway:GET",
"aps:ListWorkspaces",
"autoscaling:DescribeAutoScalingGroups",
"dms:DescribeReplicationInstances",
"dms:DescribeReplicationTasks",
"ec2:DescribeTransitGatewayAttachments",
"ec2:DescribeSpotFleetRequests",
"shield:ListProtections",
"storagegateway:ListGateways",
"storagegateway:ListTagsForResource",
"iam:ListAccountAliases"
],
"Effect": "Allow",
"Resource": "*"
}
]
}
如果您想根据需求移除某些权限,可以根据您要抓取的 CloudWatch 命名空间调整策略
以下是运行静态和发现作业所需的最低权限
"tag:GetResources",
"cloudwatch:GetMetricData",
"cloudwatch:GetMetricStatistics",
"cloudwatch:ListMetrics"
以下权限用于发现 AWS/ApiGateway 命名空间的资源
"apigateway:GET"
以下权限用于发现 AWS/AutoScaling 命名空间的资源
"autoscaling:DescribeAutoScalingGroups"
以下权限用于发现 AWS/DMS 命名空间的资源
"dms:DescribeReplicationInstances",
"dms:DescribeReplicationTasks"
以下权限用于发现 AWS/EC2Spot 命名空间的资源
"ec2:DescribeSpotFleetRequests"
以下权限用于发现 AWS/Prometheus 命名空间的资源
"aps:ListWorkspaces"
以下权限用于发现 AWS/StorageGateway 命名空间的资源
"storagegateway:ListGateways",
"storagegateway:ListTagsForResource"
以下权限用于发现 AWS/TransitGateway 命名空间的资源
"ec2:DescribeTransitGatewayAttachments"
以下权限用于发现 AWS/DDoSProtection 命名空间的受保护资源
"shield:ListProtections"
AWS IAM API 支持创建账户别名,这是可用于轻松识别账户的人性化名称。一个账户最多只能有一个别名,参见(文档)。每个别名在 AWS 网络分区中必须是唯一的(文档)。以下权限用于获取账户的别名,该别名作为标签导出到 aws_account_info
指标中:
"iam:ListAccountAliases"
如果在 AWS EC2 实例内运行 YACE,导出器将自动尝试承担关联的 IAM 角色。如果不希望出现这种行为,可以通过设置环境变量 AWS_EC2_METADATA_DISABLED=true
来关闭使用元数据端点。
配置
请参阅配置文档。
指标示例
### 带有 exportedTagsOnMetrics 的指标
aws_ec2_cpuutilization_maximum{dimension_InstanceId="i-someid", name="arn:aws:ec2:eu-west-1:472724724:instance/i-someid", tag_Name="jenkins"} 57.2916666666667
### 带有标签的信息辅助指标
aws_elb_info{name="arn:aws:elasticloadbalancing:eu-west-1:472724724:loadbalancer/a815b16g3417211e7738a02fcc13bbf9",tag_KubernetesCluster="production-19",tag_Name="",tag_kubernetes_io_cluster_production_19="owned",tag_kubernetes_io_service_name="nginx-ingress/private-ext",region="eu-west-1"} 0
aws_ec2_info{name="arn:aws:ec2:eu-west-1:472724724:instance/i-someid",tag_Name="jenkins"} 0
### 跟踪 CloudWatch 请求以计算成本
yace_cloudwatch_requests_total 168
不带 exportedTagsOnMetrics 的查询示例
# CPU 使用率 + 实例 ID 的 Name 标签 - 无需再使用实例 ID 进行监控
aws_ec2_cpuutilization_average + on (name) group_left(tag_Name) aws_ec2_info
# 以兆字节为单位的可用存储空间 + Elasticsearch 集群的 Type 标签
(aws_es_free_storage_space_sum + on (name) group_left(tag_Type) aws_es_info) / 1024
# 在 ELB 4xx 指标上添加 Kubernetes / kops 标签
(aws_elb_httpcode_backend_4_xx_sum + on (name) group_left(tag_KubernetesCluster,tag_kubernetes_io_service_name) aws_elb_info)
# ELB 的可用性指标(成功请求 / 总请求)+ k8s 服务名称
# 对所有指标使用 nilToZero,否则将无法工作
((aws_elb_request_count_sum - on (name) group_left() aws_elb_httpcode_backend_4_xx_sum) - on (name) group_left() aws_elb_httpcode_backend_5_xx_sum) + on (name) group_left(tag_kubernetes_io_service_name) aws_elb_info
预测7天内你的elasticsearch磁盘大小并用标签类型和版本报告指标
predict_linear(aws_es_free_storage_space_minimum[2d], 86400 * 7) + on (name) group_left(tag_type, tag_version) aws_es_info
根据过去10分钟预测未来32天的cloudwatch成本
100万次请求免费
每1000次GetMetricStatistics API请求0.01美元 (https://aws.amazon.com/cloudwatch/pricing/)
((increase(yace_cloudwatch_requests_total[10m]) * 6 * 24 * 32) - 100000) / 1000 * 0.01
## 覆盖AWS端点URL
为了支持本地测试,所有AWS URL都可以通过设置环境变量`AWS_ENDPOINT_URL`来覆盖
```shell
docker run -d --rm -v $PWD/credentials:/exporter/.aws/credentials -v $PWD/config.yml:/tmp/config.yml \
-e AWS_ENDPOINT_URL=http://localhost:4766 -p 5000:5000 --name yace ghcr.io/nerdswords/yet-another-cloudwatch-exporter:vx.xx.x # 使用发布版本作为标签 - 不要忘记版本号前的'v'
选项
RoleArns
多个roleArn在监控多账户设置时很有用,其中所有账户都使用相同的AWS服务。例如,你在监控账户中运行yace,并且有多个账户(比如报纸、广播和电视)运行ECS集群。每个账户都授予yace权限以承担本地IAM角色,该角色具有所有必要的Cloudwatch指标权限。在这种设置下,你可以简单地列出:
apiVersion: v1alpha1
sts-region: eu-west-1
discovery:
jobs:
- type: AWS/ECS
regions:
- eu-north-1
roles:
- roleArn: "arn:aws:iam::1111111111111:role/prometheus" # 报纸
- roleArn: "arn:aws:iam::2222222222222:role/prometheus" # 广播
- roleArn: "arn:aws:iam::3333333333333:role/prometheus" # 电视
metrics:
- name: MemoryReservation
statistics:
- Average
- Minimum
- Maximum
period: 600
length: 600
此外,如果你要承担的IAM角色需要外部ID,你可以这样指定:
roles:
- roleArn: "arn:aws:iam::1111111111111:role/prometheus"
externalId: "shared-external-identifier"
请求并发
标志'cloudwatch-concurrency'和'tag-concurrency'定义了对cloudwatch指标和标签的并发请求数。它们的默认值是5。
设置更高的值可以加快抓取时间,但可能会导致节流和API被阻塞。
解耦抓取
导出器在固定间隔的后台抓取cloudwatch指标。 这可以防止API请求的滥用,避免在AWS账户中产生额外的账单。
标志'scraping-interval'定义了抓取之间的秒数。 默认值是300。
将YACE嵌入到你的应用程序中
YACE可以作为库使用并嵌入到你的应用程序中,请参阅嵌入指南。
故障排除 / 调试
帮助,我的指标是间歇性的
- 请尝试使用更大的长度,例如对于elb,尝试使用600的长度和600的周期。然后测试你可以降低到多低而不会丢失数据。AWS上的ELB指标默认每5分钟(300)写入一次。
我的指标在5分钟后才显示新值
- 请尝试为'scraping-interval'标志设置较低的值,或将'decoupled-scraping'设置为false。
贡献
感谢
- Justin Santa Barbara - 告诉我关于AWS标签API的信息,这大大简化了很多工作 - 谢谢!
- Brian Brazil - 就用户体验和Prometheus库提供了大量反馈 - 谢谢!