监控组件容量规划
监控组件负责存储从平台中一个或多个集群收集的指标数据。因此,您需要提前评估监控规模,并根据本文档中的指南规划监控组件所需的资源。
目录
假设与方法论Prometheus小规模 — 10 个 worker 节点,500 个双容器 Pod中等规模 — 50 个 worker 节点,2000 个双容器 Pod大规模 — 500 个 worker 节点,10000 个双容器 PodVictoriaMetrics小规模 — 10 个 worker 节点,500 个双容器 Pod中等规模 — 50 个 worker 节点,2000 个双容器 Pod大规模 — 500 个 worker 节点,10000 个双容器 Pod假设与方法论
- 本文档中的数据来自受控实验室性能报告,旨在作为生产规划的容量基线。
- 磁盘示例的保留时间为7天;其他保留目标请按比例调整。
- 存储基线符合上述警告(SSD,约6000 IOPS,约250MB/s 读写,独立挂载)。
- 测试工作负载涵盖了典型的监控页面,如“acp ns overview page”和“platform region detail page”。
Prometheus
以下是按规模划分的 Prometheus 及相关组件(Thanos Query、Thanos Sidecar 等)的容量建议。
小规模 — 10 个 worker 节点,500 个双容器 Pod
- 指标摄取速率:约2800 样本/秒
中等规模 — 50 个 worker 节点,2000 个双容器 Pod
- 指标摄取速率:约7294 样本/秒
大规模 — 500 个 worker 节点,10000 个双容器 Pod
- 指标摄取速率:约41575 样本/秒
VictoriaMetrics
以下是按规模划分的 VictoriaMetrics 组件容量建议。
小规模 — 10 个 worker 节点,500 个双容器 Pod
- 指标摄取速率:约3274 样本/秒
中等规模 — 50 个 worker 节点,2000 个双容器 Pod
- 指标摄取速率:约6940 样本/秒
大规模 — 500 个 worker 节点,10000 个双容器 Pod
- 指标摄取速率:约34300 样本/秒