评估 Global Cluster 的资源

Overview

本主题提供了中 Multi-Cluster 的推荐实践和资源评估指南。

合理的节点规格确保 global cluster 能高效管理所有注册的集群，处理同步流量，并响应用户的 API 和 Web Console 请求，避免性能下降。

Node Sizing

Global cluster 负责：

维护集群注册和元数据。
处理来自 Web Console 和 CLI 的入站 API 请求。
协调与托管集群的同步和心跳消息。
管理内部控制器和资源调和循环。

由于 Global Cluster 需同时处理所有连接集群的管理操作和数据聚合，资源分配应根据预期规模和工作负载强度进行规划。

基线生产规格

生产规模的规格主要取决于：

托管集群数量
同步周期频率
并发 API 请求率（来自用户或自动化）
流式请求的数量
已安装插件数量

下表提供了通过内部性能测试验证的参考配置。

规模等级	托管集群数量	节点数量	每节点 CPU	每节点内存	备注
Small	≤ 10	3	8 核	16 GB	适用于小规模环境
Medium	≤ 50	3	16 核	32 GB	默认生产环境配置
Large	≤ 100	3	24 核	48 GB	支持高强度 Web Console 使用和频繁同步周期
Extra Large	≤ 500	6	32 核	64 GB	需要横向扩展和专用基础设施节点

WARNING

以上建议为通用指导，实际需求取决于您的集群拓扑结构、用户并发量及已安装插件。

纵向扩展指南

当单节点负载增加（例如，托管集群数量增加 2 倍或用户并发量提升）时，建议做如下调整：

参数	扩展建议
CPU	每增加 50 个托管集群，CPU 增加 50%
内存	每增加 50 个托管集群，内存增加 50%

横向扩展指南

当托管集群数量超过 100 或持续出现 API 延迟超过 500 ms 时：

增加节点以分摊请求处理和控制器负载。

资源验证与监控

部署后，持续监控以下指标以验证节点规格：

指标	推荐范围
节点 CPU 利用率	峰值负载下 60–75%
节点内存利用率	持续 ≤ 80%
API 请求延迟	P90 < 500ms
etcd 提交延迟	P99 < 50ms

Node CPU utilization

Node Memory utilization

API request latency

etcd commit latency

100 * (1 - avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])))

NOTE

如果持续资源使用率超过推荐阈值，应在用户体验性能下降前，进行纵向（增加 CPU/内存）或横向（增加节点）扩展。

Summary

Global Cluster 规格规划建议：

中等规模部署（≤50 个集群）起步配置为 3 节点 × 16 核 × 32 GB。
针对更高请求并发或重度 Web Console 使用，进行纵向扩展。
集群数量超过 100 时，进行横向扩展以保持 API 响应速度。
每次托管集群数量或同步频率显著增加后，重新评估规格。

遵循以上指南，可确保 Multi-Cluster 环境随着规模增长，性能和运行稳定性可预测且可靠。

#评估 Global Cluster 的资源

#目录

#Overview

#Node Sizing

#基线生产规格

#纵向扩展指南

#横向扩展指南

#资源验证与监控

#Summary