Global 集群灾难恢复
本页是运行在 Immutable Infrastructure 上的 global 集群的灾难恢复入口。部署时的灾难恢复配置属于 global 集群安装操作步骤的一部分。
部署操作步骤
在创建主 global 集群和备用 global 集群时,请在安装指南中使用可选灾难恢复部署。
该部署操作步骤是安装时 DR 配置的权威来源,包括:
- 主集群和备用集群使用相同的 Kubernetes API server 加密提供方配置。
- etcd 服务器证书 SAN 列表同时包含主和备用控制平面 VIP 以及 Platform Access Address。
- Huawei DCS 部署从
DCSCluster.spec.encryptionProviderConfigRef引用共享的加密提供方 Secret。 - VMware vSphere 部署通过
KubeadmControlPlane.spec.kubeadmConfigSpec.files写入相同的/etc/kubernetes/encryption-provider.conf文件。 - Huawei Cloud Stack 部署通过
KubeadmControlPlane.spec.kubeadmConfigSpec.files写入相同的/etc/kubernetes/encryption-provider.conf文件。 - VMware vSphere 和 Huawei Cloud Stack 会在安装器导入前创建
dcs-import-extra-resourcesConfigMap,以便安装可以保留特定于提供方的资源。该名称保留dcs前缀,以兼容历史安装器。Huawei DCS 使用内置的提供方资源迁移流程,除非必须导入额外资源。 - 在两次安装都成功后,主集群会安装带有备用集群连接值的
global-etcd-sync。
运维范围
在主集群和备用集群安装完成后,请将 DR 作为单独的生命周期流程进行运维。保持安装清单与安装指南一致,然后使用经批准的运维 runbook 执行以下任务:
- 验证
etcd-sync的健康状态和复制 Lag。 - 验证备用集群是否能够解密在主集群上创建的 Kubernetes Secrets。
- 在计划内故障切换之前,验证主和备用控制平面 VIP 以及平台访问路径。
- 使用经批准的运维操作步骤执行故障切换和回切。
- 在故障切换后协调特定于提供方的资源。
灾难恢复切换和支持 DR 的 global 集群升级都会卸载 etcd 同步插件。在卸载之前,请确认备用 global 集群的数据与主集群一致。在 Immutable Infrastructure 上,工作负载集群节点由 Cluster API Machine 对象提供支持,因此,在不同步导致不一致后,如果 owner-reference 解析错误,可能会删除这些 Machine 对象并销毁其背后的虚拟机。如果一致性检查报告缺少或多余的键,请不要卸载插件;请先解决不一致问题,或联系技术支持。有关详细的切换和升级操作步骤,请参见 Global Cluster Disaster Recovery 和 Upgrade the global cluster。
提供方说明
请遵循 可选灾难恢复部署 中的 DCS 步骤。DCS 安装必须在两侧保持相同的加密提供方 Secret 和 DCSCluster.spec.encryptionProviderConfigRef。对于 DCS,不要将加密提供方文件添加到 KubeadmControlPlane.spec.kubeadmConfigSpec.files。DCS 提供方资源通过内置流程迁移;仅在必须导入额外资源时才创建 dcs-import-extra-resources。
另请参见
有关传统操作系统 global 集群灾难恢复,请参见 Global Cluster Disaster Recovery。
有关在 Immutable Infrastructure 上安装和升级 global 集群,请参见: