评估 Global Cluster 的资源

Overview

本主题提供了 中 Multi-Cluster 的推荐实践和资源评估指南。

合理的节点规格确保 global cluster 能高效管理所有注册的集群,处理同步流量,并响应用户的 API 和 Web Console 请求,避免性能下降。

Node Sizing

Global cluster 负责:

  • 维护集群注册和元数据。
  • 处理来自 Web Console 和 CLI 的入站 API 请求。
  • 协调与托管集群的同步和心跳消息。
  • 管理内部控制器和资源调和循环。

由于 Global Cluster 需同时处理所有连接集群的管理操作数据聚合,资源分配应根据预期规模和工作负载强度进行规划。

基线生产规格

生产规模的规格主要取决于:

  • 托管集群数量
  • 同步周期频率
  • 并发 API 请求率(来自用户或自动化)
  • 流式请求的数量
  • 已安装插件数量

下表提供了通过内部性能测试验证的参考配置。

规模等级托管集群数量节点数量每节点 CPU每节点内存备注
Small≤ 1038 核16 GB适用于小规模环境
Medium≤ 50316 核32 GB默认生产环境配置
Large≤ 100324 核48 GB支持高强度 Web Console 使用和频繁同步周期
Extra Large≤ 500632 核64 GB需要横向扩展和专用基础设施节点
WARNING

以上建议为通用指导,实际需求取决于您的集群拓扑结构、用户并发量及已安装插件。

纵向扩展指南

当单节点负载增加(例如,托管集群数量增加 2 倍或用户并发量提升)时,建议做如下调整:

参数扩展建议
CPU每增加 50 个托管集群,CPU 增加 50%
内存每增加 50 个托管集群,内存增加 50%

横向扩展指南

当托管集群数量超过 100 或持续出现 API 延迟超过 500 ms 时:

增加节点以分摊请求处理和控制器负载。

资源验证与监控

部署后,持续监控以下指标以验证节点规格:

指标推荐范围
节点 CPU 利用率峰值负载下 60–75%
节点内存利用率持续 ≤ 80%
API 请求延迟P90 < 500ms
etcd 提交延迟P99 < 50ms
Node CPU utilization
Node Memory utilization
API request latency
etcd commit latency
100 * (1 - avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])))
NOTE

如果持续资源使用率超过推荐阈值,应在用户体验性能下降前,进行纵向(增加 CPU/内存)或横向(增加节点)扩展。

Summary

Global Cluster 规格规划建议:

  1. 中等规模部署(≤50 个集群)起步配置为 3 节点 × 16 核 × 32 GB
  2. 针对更高请求并发或重度 Web Console 使用,进行纵向扩展
  3. 集群数量超过 100 时,进行横向扩展以保持 API 响应速度。
  4. 每次托管集群数量或同步频率显著增加后,重新评估规格。

遵循以上指南,可确保 Multi-Cluster 环境随着规模增长,性能和运行稳定性可预测且可靠。