本主题提供了 中多集群的推荐实践和资源评估指南。
合理的节点规格确保 global 集群能够高效管理所有注册的集群,处理同步流量,并响应用户的 API 和 Web 控制台请求而不出现性能下降。
Global 集群负责:
由于 Global Cluster 需要同时处理所有连接集群的管理操作和数据汇聚,资源分配应根据预期规模和工作负载强度进行规划。
生产规模的规格主要取决于:
下表提供了通过内部性能测试验证的参考配置。
| 规模等级 | 托管集群数量 | 节点数量 | 每节点 CPU | 每节点内存 | 备注 |
|---|---|---|---|---|---|
| 小型 | ≤ 10 | 3 | 8 核 | 16 GB | 适用于小规模环境 |
| 中型 | ≤ 50 | 3 | 16 核 | 32 GB | 默认生产环境配置 |
| 大型 | ≤ 100 | 3 | 24 核 | 48 GB | 支持高强度 Web 控制台使用和频繁同步周期 |
| 超大型 | ≤ 500 | 6 | 32 核 | 64 GB | 需要水平扩展和专用基础设施节点 |
以上建议为通用指导,实际需求取决于您的集群拓扑结构、用户并发量及安装的插件。
当单节点负载增加(例如,托管集群数量增加 2 倍或用户并发量提升)时,建议按以下方式调整:
| 参数 | 扩展建议 |
|---|---|
| CPU | 每增加 50 个托管集群,CPU 增加 50% |
| 内存 | 每增加 50 个托管集群,内存增加 50% |
当托管集群数量超过 100 或持续出现 API 响应延迟超过 500 毫秒时:
增加节点以分摊请求处理和控制器负载。
部署后,持续监控以下指标以验证节点规格:
| 指标 | 推荐范围 |
|---|---|
| 节点 CPU 利用率 | 峰值负载下 60–75% |
| 节点内存利用率 | 持续 ≤80% |
| API 请求延迟 | P90 < 500ms |
| etcd 提交延迟 | P99 < 50ms |
如果持续资源使用率长期超过推荐阈值,应在用户体验性能下降前进行纵向(增加 CPU/内存)或横向(增加节点)扩展。
Global Cluster 规格规划时:
遵循以上指南,确保您的多集群环境在规模增长时保持可预测的性能和稳定的运行。