Project Icon

yet-another-cloudwatch-exporter

AWS CloudWatch指标的开源Prometheus导出工具

yet-another-cloudwatch-exporter是一个Go语言开发的AWS CloudWatch指标导出工具。它能自动发现AWS资源、支持结构化日志、正则过滤和标签管理。此外,它可从多个AWS账户获取数据,支持众多AWS服务,还可作为库集成到其他应用中。该项目为CloudWatch指标提供了灵活全面的导出方案。

YACE - 又一个 CloudWatch 导出器

YACE,即"又一个 CloudWatch 导出器",是一个用于 AWS CloudWatch 指标的 Prometheus 导出器。它使用 Go 语言编写,并使用官方 AWS SDK。

该项目最初由 Thomas Peitz 在 InVision.de 工作期间创建,后来移至公司仓库之外。完整的品牌重塑故事可以在这里阅读。

替代方案

如果你更喜欢 Java 实现,可以考虑使用官方的 CloudWatch 导出器

项目状态

当 YACE 版本低于 1.0.0 时,预计任何新版本都可能引入重大变更。我们会在 CHANGELOG.md 中记录变更。

在可行的情况下,功能将被弃用而不是立即更改或删除。这意味着 YACE 将继续工作但可能会记录警告信息。预计被弃用的功能将在接下来的 2/3 个版本中永久更改/删除。

安全

SECURITY.md 中了解更多如何报告安全漏洞的信息。

支持的版本

只有最新版本会获得安全更新。我们不会支持旧版本。

功能

  • 停止担心您的 AWS ID - 通过标签自动发现资源
  • 结构化日志记录(json 和 logfmt)
  • 通过正则表达式过滤监控资源
  • 自动为指标添加标签标签
  • 自动为指标添加维度标签
  • 允许导出 0,即使 CloudWatch 返回 nil
  • 允许使用 CloudWatch 时间戳导出指标(默认禁用)
  • 所有 CloudWatch 指标的静态指标支持,无需自动发现
  • 使用跨账户角色从多个 AWS 账户拉取数据
  • 可作为外部应用程序中的库使用
  • 支持使用 CloudWatch 维度抓取自定义命名空间指标
  • 通过标签支持自动发现的服务:
    • /aws/sagemaker/Endpoints - Sagemaker 端点
    • /aws/sagemaker/InferenceRecommendationsJobs - Sagemaker 推理推荐器作业
    • /aws/sagemaker/ProcessingJobs - Sagemaker 处理作业
    • /aws/sagemaker/TrainingJobs - Sagemaker 训练作业
    • /aws/sagemaker/TransformJobs - Sagemaker 批量转换作业
    • AmazonMWAA - 托管 Apache Airflow
    • AWS/ACMPrivateCA - ACM 私有 CA
    • AWS/AmazonMQ - 托管消息代理服务
    • AWS/AppRunner - 托管容器应用服务
    • AWS/AOSS - OpenSearch Serverless
    • AWS/ApiGateway - API 网关(V1 和 V2)
    • AWS/ApplicationELB - 应用负载均衡器
    • AWS/AppStream - AppStream
    • AWS/AppSync - AppSync
    • AWS/Athena - Athena
    • AWS/AutoScaling - 自动扩展组
    • AWS/Backup - 备份
    • AWS/Bedrock - 生成式 AI
    • AWS/Billing - 计费
    • AWS/Cassandra - Cassandra
    • AWS/CertificateManager - 证书管理器
    • AWS/ClientVPN - 基于客户端的 VPN
    • AWS/CloudFront - CloudFront
    • AWS/Cognito - Cognito
    • AWS/DataSync - DataSync
    • AWS/DDoSProtection - 分布式拒绝服务(DDoS)保护服务
    • AWS/DMS - 数据库迁移服务
    • AWS/DocDB - DocumentDB(与 MongoDB 兼容)
    • AWS/DX - Direct Connect
    • AWS/DynamoDB - NoSQL 键值数据库
    • AWS/EBS - 弹性块存储
    • AWS/EC2 - 弹性计算云
    • AWS/EC2Spot - 竞价型实例的弹性计算云
    • AWS/ECS - 弹性容器服务(服务指标)
    • AWS/EFS - 弹性文件系统
    • AWS/ElastiCache - ElastiCache
    • AWS/ElasticBeanstalk - Elastic Beanstalk
    • AWS/ElasticMapReduce - Elastic MapReduce
    • AWS/ELB - 弹性负载均衡器
    • AWS/EMRServerless - Amazon EMR Serverless
    • AWS/ES - ElasticSearch
    • AWS/Events - EventBridge
    • AWS/Firehose - 托管流服务
    • AWS/FSx - FSx 文件系统
    • AWS/GameLift - GameLift
    • AWS/GatewayELB - 网关负载均衡器
    • AWS/GlobalAccelerator - AWS 全球加速器
    • AWS/IoT - 物联网
    • AWS/IPAM - IP 地址管理器
    • AWS/Kafka - 托管 Apache Kafka
    • AWS/KafkaConnect - AWS MSK 连接器
    • AWS/Kinesis - Kinesis 数据流
    • AWS/KinesisAnalytics - Kinesis Data Analytics for SQL 应用程序
    • AWS/KMS - 密钥管理服务
    • AWS/Lambda - Lambda 函数
    • AWS/Logs - CloudWatch 日志
    • AWS/MediaConnect - AWS Elemental MediaConnect
    • AWS/MediaConvert - AWS Elemental MediaConvert
    • AWS/MediaLive - AWS Elemental MediaLive
    • AWS/MediaPackage - AWS Elemental MediaPackage
    • AWS/MediaTailor - AWS Elemental MediaTailor
    • AWS/MemoryDB - AWS MemoryDB
    • AWS/MWAA - 托管 Apache Airflow(容器、队列和数据库指标)
    • AWS/NATGateway - NAT 网关
    • AWS/Neptune - Neptune
    • AWS/NetworkELB - 网络负载均衡器
    • AWS/NetworkFirewall - 网络防火墙
    • AWS/PrivateLinkEndpoints - VPC 终端节点
    • AWS/PrivateLinkServices - VPC 终端节点服务
    • AWS/Prometheus - 托管 Prometheus 服务
    • AWS/QLDB - 量子账本数据库
    • AWS/RDS - 关系数据库服务
    • AWS/Redshift - Redshift 数据库
    • AWS/Route53 - Route53 健康检查
    • AWS/Route53Resolver - Route53 解析器
    • AWS/RUM - 实时用户监控
    • AWS/S3 - 对象存储
    • AWS/Sagemaker/ModelBuildingPipeline - Sagemaker 模型构建管道
    • AWS/SageMaker - Sagemaker 调用
    • AWS/SecretsManager - 秘密管理器
    • AWS/SES - 简单电子邮件服务
    • AWS/SNS - 简单通知服务
    • AWS/SQS - 简单队列服务
    • AWS/States - Step Functions
    • AWS/StorageGateway - 本地访问云存储
    • AWS/TransitGateway - 中转网关
    • AWS/TrustedAdvisor - Trusted Advisor
    • AWS/Usage - 某些 AWS 资源和 API 的使用情况
    • AWS/VPN - VPN 连接
  • AWS/WAFV2 - Web应用防火墙v2
  • AWS/WorkSpaces - WorkSpaces虚拟桌面
  • CWAgent - CloudWatch代理
  • ECS/ContainerInsights - ECS/ContainerInsights(Fargate指标)
  • Glue - AWS Glue作业
  • ContainerInsights - EKS ContainerInsights(依赖于CloudWatch代理)

功能标志

为了提供向后兼容性,YACE 的一些新功能或破坏性变更可能会受功能标志保护。详情请参阅 docs/feature_flags.md

安装和运行

请参阅安装指南

身份验证

导出器需要在能够访问 AWS 的环境中运行。导出器使用 AWS SDK for Go 并支持通过 AWS 默认凭证链 提供身份验证。无论使用何种方法获取凭证,导出器都需要一些权限才能正常工作。

作为快速入门,可以使用以下 IAM 策略来授予 YACE 所需的所有权限

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Action": [
        "tag:GetResources",
        "cloudwatch:GetMetricData",
        "cloudwatch:GetMetricStatistics",
        "cloudwatch:ListMetrics",
        "apigateway:GET",
        "aps:ListWorkspaces",
        "autoscaling:DescribeAutoScalingGroups",
        "dms:DescribeReplicationInstances",
        "dms:DescribeReplicationTasks",
        "ec2:DescribeTransitGatewayAttachments",
        "ec2:DescribeSpotFleetRequests",
        "shield:ListProtections",
        "storagegateway:ListGateways",
        "storagegateway:ListTagsForResource",
        "iam:ListAccountAliases"
      ],
      "Effect": "Allow",
      "Resource": "*"
    }
  ]
}

如果您想根据需求移除某些权限,可以根据您要抓取的 CloudWatch 命名空间调整策略

以下是运行静态和发现作业所需的最低权限

"tag:GetResources",
"cloudwatch:GetMetricData",
"cloudwatch:GetMetricStatistics",
"cloudwatch:ListMetrics"

以下权限用于发现 AWS/ApiGateway 命名空间的资源

"apigateway:GET"

以下权限用于发现 AWS/AutoScaling 命名空间的资源

"autoscaling:DescribeAutoScalingGroups"

以下权限用于发现 AWS/DMS 命名空间的资源

"dms:DescribeReplicationInstances",
"dms:DescribeReplicationTasks"

以下权限用于发现 AWS/EC2Spot 命名空间的资源

"ec2:DescribeSpotFleetRequests"

以下权限用于发现 AWS/Prometheus 命名空间的资源

"aps:ListWorkspaces"

以下权限用于发现 AWS/StorageGateway 命名空间的资源

"storagegateway:ListGateways",
"storagegateway:ListTagsForResource"

以下权限用于发现 AWS/TransitGateway 命名空间的资源

"ec2:DescribeTransitGatewayAttachments"

以下权限用于发现 AWS/DDoSProtection 命名空间的受保护资源

"shield:ListProtections"

AWS IAM API 支持创建账户别名,这是可用于轻松识别账户的人性化名称。一个账户最多只能有一个别名,参见(文档)。每个别名在 AWS 网络分区中必须是唯一的(文档)。以下权限用于获取账户的别名,该别名作为标签导出到 aws_account_info 指标中:

"iam:ListAccountAliases"

如果在 AWS EC2 实例内运行 YACE,导出器将自动尝试承担关联的 IAM 角色。如果不希望出现这种行为,可以通过设置环境变量 AWS_EC2_METADATA_DISABLED=true 来关闭使用元数据端点。

配置

请参阅配置文档。

指标示例

### 带有 exportedTagsOnMetrics 的指标
aws_ec2_cpuutilization_maximum{dimension_InstanceId="i-someid", name="arn:aws:ec2:eu-west-1:472724724:instance/i-someid", tag_Name="jenkins"} 57.2916666666667

### 带有标签的信息辅助指标
aws_elb_info{name="arn:aws:elasticloadbalancing:eu-west-1:472724724:loadbalancer/a815b16g3417211e7738a02fcc13bbf9",tag_KubernetesCluster="production-19",tag_Name="",tag_kubernetes_io_cluster_production_19="owned",tag_kubernetes_io_service_name="nginx-ingress/private-ext",region="eu-west-1"} 0
aws_ec2_info{name="arn:aws:ec2:eu-west-1:472724724:instance/i-someid",tag_Name="jenkins"} 0

### 跟踪 CloudWatch 请求以计算成本
yace_cloudwatch_requests_total 168

不带 exportedTagsOnMetrics 的查询示例

# CPU 使用率 + 实例 ID 的 Name 标签 - 无需再使用实例 ID 进行监控
aws_ec2_cpuutilization_average + on (name) group_left(tag_Name) aws_ec2_info

# 以兆字节为单位的可用存储空间 + Elasticsearch 集群的 Type 标签
(aws_es_free_storage_space_sum + on (name) group_left(tag_Type) aws_es_info) / 1024

# 在 ELB 4xx 指标上添加 Kubernetes / kops 标签
(aws_elb_httpcode_backend_4_xx_sum + on (name) group_left(tag_KubernetesCluster,tag_kubernetes_io_service_name) aws_elb_info)

# ELB 的可用性指标(成功请求 / 总请求)+ k8s 服务名称
# 对所有指标使用 nilToZero,否则将无法工作
((aws_elb_request_count_sum - on (name) group_left() aws_elb_httpcode_backend_4_xx_sum) - on (name) group_left() aws_elb_httpcode_backend_5_xx_sum) + on (name) group_left(tag_kubernetes_io_service_name) aws_elb_info

预测7天内你的elasticsearch磁盘大小并用标签类型和版本报告指标

predict_linear(aws_es_free_storage_space_minimum[2d], 86400 * 7) + on (name) group_left(tag_type, tag_version) aws_es_info

根据过去10分钟预测未来32天的cloudwatch成本

100万次请求免费

每1000次GetMetricStatistics API请求0.01美元 (https://aws.amazon.com/cloudwatch/pricing/)

((increase(yace_cloudwatch_requests_total[10m]) * 6 * 24 * 32) - 100000) / 1000 * 0.01


## 覆盖AWS端点URL
为了支持本地测试,所有AWS URL都可以通过设置环境变量`AWS_ENDPOINT_URL`来覆盖
```shell
docker run -d --rm -v $PWD/credentials:/exporter/.aws/credentials -v $PWD/config.yml:/tmp/config.yml \
-e AWS_ENDPOINT_URL=http://localhost:4766 -p 5000:5000 --name yace ghcr.io/nerdswords/yet-another-cloudwatch-exporter:vx.xx.x # 使用发布版本作为标签 - 不要忘记版本号前的'v'

选项

RoleArns

多个roleArn在监控多账户设置时很有用,其中所有账户都使用相同的AWS服务。例如,你在监控账户中运行yace,并且有多个账户(比如报纸、广播和电视)运行ECS集群。每个账户都授予yace权限以承担本地IAM角色,该角色具有所有必要的Cloudwatch指标权限。在这种设置下,你可以简单地列出:

apiVersion: v1alpha1
sts-region: eu-west-1
discovery:
  jobs:
    - type: AWS/ECS
      regions:
        - eu-north-1
      roles:
        - roleArn: "arn:aws:iam::1111111111111:role/prometheus" # 报纸
        - roleArn: "arn:aws:iam::2222222222222:role/prometheus" # 广播
        - roleArn: "arn:aws:iam::3333333333333:role/prometheus" # 电视
      metrics:
        - name: MemoryReservation
          statistics:
            - Average
            - Minimum
            - Maximum
          period: 600
          length: 600

此外,如果你要承担的IAM角色需要外部ID,你可以这样指定:

  roles:
    - roleArn: "arn:aws:iam::1111111111111:role/prometheus"
      externalId: "shared-external-identifier"

请求并发

标志'cloudwatch-concurrency'和'tag-concurrency'定义了对cloudwatch指标和标签的并发请求数。它们的默认值是5。

设置更高的值可以加快抓取时间,但可能会导致节流和API被阻塞。

解耦抓取

导出器在固定间隔的后台抓取cloudwatch指标。 这可以防止API请求的滥用,避免在AWS账户中产生额外的账单。

标志'scraping-interval'定义了抓取之间的秒数。 默认值是300。

将YACE嵌入到你的应用程序中

YACE可以作为库使用并嵌入到你的应用程序中,请参阅嵌入指南

故障排除 / 调试

帮助,我的指标是间歇性的

  • 请尝试使用更大的长度,例如对于elb,尝试使用600的长度和600的周期。然后测试你可以降低到多低而不会丢失数据。AWS上的ELB指标默认每5分钟(300)写入一次。

我的指标在5分钟后才显示新值

  • 请尝试为'scraping-interval'标志设置较低的值,或将'decoupled-scraping'设置为false。

贡献

开发设置 / 指南

感谢

  • Justin Santa Barbara - 告诉我关于AWS标签API的信息,这大大简化了很多工作 - 谢谢!
  • Brian Brazil - 就用户体验和Prometheus库提供了大量反馈 - 谢谢!
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号