评估 Global Cluster 的资源

Overview

本主题提供了中多集群的推荐实践和资源评估指南。

合理的节点规格能够确保 global cluster 高效管理所有注册的集群，处理同步流量，并响应用户的 API 和 Web 控制台请求，避免性能下降。

Node Sizing

Global cluster 负责：

维护集群注册和元数据。
处理来自 Web 控制台和 CLI 的入站 API 请求。
协调与托管集群的同步和心跳消息。
管理内部控制器和资源调和循环。

由于 Global Cluster 既要处理管理操作，又要汇总所有连接集群的数据，资源分配应根据预期规模和工作负载强度进行规划。

Baseline Production Sizing

生产规模的规格主要取决于：

托管集群数量
同步周期频率
并发 API 请求率（来自用户或自动化）
流式请求的数量
已安装插件数量

下表提供了通过内部性能测试验证的参考配置。

规模等级	托管集群数量	节点数量	每节点 CPU	每节点内存	备注
小型	≤ 10	3	8 核	16 GB	适用于小规模环境
中型	≤ 50	3	16 核	32 GB	默认生产环境配置
大型	≤ 100	3	24 核	48 GB	支持高强度 Web 控制台使用和频繁同步周期
超大型	≤ 500	6	32 核	64 GB	需要水平扩展和专用基础设施节点

WARNING

以上建议为通用指导，实际需求取决于您的集群拓扑、用户并发量及已安装插件。

Vertical Scaling Guidelines

当单节点负载增加（例如，托管集群数量增加 2 倍或用户并发提升）时，建议按以下方式调整：

参数	扩容建议
CPU	每增加 50 个托管集群，CPU 增加 50%
内存	每增加 50 个托管集群，内存增加 50%

Horizontal Scaling Guidelines

当托管集群数量超过 100 或持续出现 API 延迟超过 500 毫秒时：

增加节点数以分摊请求处理和控制器负载。

Resource Validation and Monitoring

部署后，持续监控以下指标以验证节点规格：

指标	推荐范围
节点 CPU 利用率	峰值负载下 60–75%
节点内存利用率	持续 ≤ 80%
API 请求延迟	P90 < 500 毫秒
etcd 提交延迟	P99 < 50 毫秒

Node CPU utilization

Node Memory utilization

API request latency

etcd commit latency

100 * (1 - avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])))

NOTE

如果持续资源使用率超过推荐阈值，应在用户体验性能下降前进行纵向（增加 CPU/内存）或横向（增加节点）扩容。

Summary

Global Cluster 规格规划要点：

中等规模部署（≤50 集群）建议从 3 节点 × 16 核 × 32 GB 开始。
并发请求增多或 Web 控制台使用频繁时，优先进行纵向扩容。
超过 100 集群时，进行横向扩容以保持 API 响应速度。
每次托管集群数量或同步频率显著增加后，重新评估规格。

遵循以上指南可确保 Multi-Cluster 环境在扩展过程中性能稳定且可预测。

#评估 Global Cluster 的资源

#目录

#Overview

#Node Sizing

#Baseline Production Sizing

#Vertical Scaling Guidelines

#Horizontal Scaling Guidelines

#Resource Validation and Monitoring

#Summary