Global 集群灾难恢复

本页是运行在 Immutable Infrastructure 上的 global 集群的灾难恢复入口。部署时的灾难恢复配置属于 global 集群安装操作步骤的一部分。

部署操作步骤

在创建主 global 集群和备用 global 集群时,请在安装指南中使用可选灾难恢复部署

该部署操作步骤是安装时 DR 配置的权威来源,包括:

  • 主集群和备用集群使用相同的 Kubernetes API server 加密提供方配置。
  • etcd 服务器证书 SAN 列表同时包含主和备用控制平面 VIP 以及 Platform Access Address。
  • Huawei DCS 部署从 DCSCluster.spec.encryptionProviderConfigRef 引用共享的加密提供方 Secret。
  • VMware vSphere 部署通过 KubeadmControlPlane.spec.kubeadmConfigSpec.files 写入相同的 /etc/kubernetes/encryption-provider.conf 文件。
  • Huawei Cloud Stack 部署通过 KubeadmControlPlane.spec.kubeadmConfigSpec.files 写入相同的 /etc/kubernetes/encryption-provider.conf 文件。
  • VMware vSphere 和 Huawei Cloud Stack 会在安装器导入前创建 dcs-import-extra-resources ConfigMap,以便安装可以保留特定于提供方的资源。该名称保留 dcs 前缀,以兼容历史安装器。Huawei DCS 使用内置的提供方资源迁移流程,除非必须导入额外资源。
  • 在两次安装都成功后,主集群会安装带有备用集群连接值的 global-etcd-sync

运维范围

在主集群和备用集群安装完成后,请将 DR 作为单独的生命周期流程进行运维。保持安装清单与安装指南一致,然后使用经批准的运维 runbook 执行以下任务:

  • 验证 etcd-sync 的健康状态和复制 Lag。
  • 验证备用集群是否能够解密在主集群上创建的 Kubernetes Secrets。
  • 在计划内故障切换之前,验证主和备用控制平面 VIP 以及平台访问路径。
  • 使用经批准的运维操作步骤执行故障切换和回切。
  • 在故障切换后协调特定于提供方的资源。
在卸载 etcd 同步插件之前验证一致性

灾难恢复切换和支持 DR 的 global 集群升级都会卸载 etcd 同步插件。在卸载之前,请确认备用 global 集群的数据与主集群一致。在 Immutable Infrastructure 上,工作负载集群节点由 Cluster API Machine 对象提供支持,因此,在不同步导致不一致后,如果 owner-reference 解析错误,可能会删除这些 Machine 对象并销毁其背后的虚拟机。如果一致性检查报告缺少或多余的键,请不要卸载插件;请先解决不一致问题,或联系技术支持。有关详细的切换和升级操作步骤,请参见 Global Cluster Disaster RecoveryUpgrade the global cluster

提供方说明

Huawei DCS
VMware vSphere
Huawei Cloud Stack
Bare Metal

请遵循 可选灾难恢复部署 中的 DCS 步骤。DCS 安装必须在两侧保持相同的加密提供方 Secret 和 DCSCluster.spec.encryptionProviderConfigRef。对于 DCS,不要将加密提供方文件添加到 KubeadmControlPlane.spec.kubeadmConfigSpec.files。DCS 提供方资源通过内置流程迁移;仅在必须导入额外资源时才创建 dcs-import-extra-resources

另请参见

有关传统操作系统 global 集群灾难恢复,请参见 Global Cluster Disaster Recovery

有关在 Immutable Infrastructure 上安装和升级 global 集群,请参见: