评估 Global Cluster 的资源

目录

Overview

本主题提供了 中多集群的推荐实践和资源评估指南。

合理的节点规格能够确保 global cluster 高效管理所有注册的集群,处理同步流量,并响应用户的 API 和 Web 控制台请求,避免性能下降。

Node Sizing

Global cluster 负责:

  • 维护集群注册和元数据。
  • 处理来自 Web 控制台和 CLI 的入站 API 请求。
  • 协调与托管集群的同步和心跳消息。
  • 管理内部控制器和资源调和循环。

由于 Global Cluster 既要处理管理操作,又要汇总所有连接集群的数据,资源分配应根据预期规模和工作负载强度进行规划。

Baseline Production Sizing

生产规模的规格主要取决于:

  • 托管集群数量
  • 同步周期频率
  • 并发 API 请求率(来自用户或自动化)
  • 流式请求的数量
  • 已安装插件数量

下表提供了通过内部性能测试验证的参考配置。

规模等级托管集群数量节点数量每节点 CPU每节点内存备注
小型≤ 1038 核16 GB适用于小规模环境
中型≤ 50316 核32 GB默认生产环境配置
大型≤ 100324 核48 GB支持高强度 Web 控制台使用和频繁同步周期
超大型≤ 500632 核64 GB需要水平扩展和专用基础设施节点
WARNING

以上建议为通用指导,实际需求取决于您的集群拓扑、用户并发量及已安装插件。

Vertical Scaling Guidelines

当单节点负载增加(例如,托管集群数量增加 2 倍或用户并发提升)时,建议按以下方式调整:

参数扩容建议
CPU每增加 50 个托管集群,CPU 增加 50%
内存每增加 50 个托管集群,内存增加 50%

Horizontal Scaling Guidelines

当托管集群数量超过 100 或持续出现 API 延迟超过 500 毫秒时:

增加节点数以分摊请求处理和控制器负载。

Resource Validation and Monitoring

部署后,持续监控以下指标以验证节点规格:

指标推荐范围
节点 CPU 利用率峰值负载下 60–75%
节点内存利用率持续 ≤ 80%
API 请求延迟P90 < 500 毫秒
etcd 提交延迟P99 < 50 毫秒
Node CPU utilization
Node Memory utilization
API request latency
etcd commit latency
100 * (1 - avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])))
NOTE

如果持续资源使用率超过推荐阈值,应在用户体验性能下降前进行纵向(增加 CPU/内存)或横向(增加节点)扩容。

Summary

Global Cluster 规格规划要点:

  1. 中等规模部署(≤50 集群)建议从 3 节点 × 16 核 × 32 GB 开始。
  2. 并发请求增多或 Web 控制台使用频繁时,优先进行纵向扩容。
  3. 超过 100 集群时,进行横向扩容以保持 API 响应速度。
  4. 每次托管集群数量或同步频率显著增加后,重新评估规格。

遵循以上指南可确保 Multi-Cluster 环境在扩展过程中性能稳定且可预测。