升级 global 集群
由一个 global 集群 和一个或多个 业务集群 组成。必须先升级 global 集群,之后才能升级任何业务集群。
本文档将引导您完成 global 集群的升级操作步骤。
如果 global 集群配置了 global DR(灾备) 方案,请严格按照global DR 操作步骤执行。否则,请按照标准操作步骤执行。
目录
标准操作步骤
上传镜像
将核心软件包复制到 global 集群的 任一控制平面节点,解压软件包并进入解压目录。
-
如果 global 集群使用 内置镜像仓库,执行:
-
如果 global 集群使用 外部镜像仓库,还需提供仓库地址:
如果计划在 global 集群升级时同时升级 Operator 和 Cluster Plugin,可以提前将它们的镜像推送到 global 集群的镜像仓库。 批量上传说明请参见批量推送目录中所有软件包的镜像。
上传镜像通常需要约 2 小时,具体时间取决于您的网络和磁盘性能。
如果平台配置了 global 灾备(DR),请注意 备用 global 集群也需要上传镜像,请合理安排维护时间窗口。
使用 violet 向备用集群上传软件包时,必须指定参数 --dest-repo <备用集群的 VIP 地址>。
否则软件包将被上传到 主集群 的镜像仓库,导致备用集群无法安装或升级扩展。
另外,必须提供备用集群镜像仓库的认证信息,或者使用 --no-auth 参数。
有关 violet push 子命令的详细说明,请参见上传软件包。
触发升级
镜像上传完成后,执行以下命令启动升级流程:
等待脚本执行完成后再继续。
如果您已提前将 Operator 和 Cluster Plugin 镜像推送到 global 集群的镜像仓库,则可继续执行仅创建目录中所有软件包的 CR步骤。执行该命令后,等待约 10–15 分钟,直到功能组件出现升级通知。之后即可在后续升级步骤中同时升级 Operator 和 Cluster Plugin。
-
升级 global 集群 时,切勿在仅创建目录中所有软件包的 CR步骤中使用
--clusters参数在业务集群上创建 CR,否则可能导致后续业务集群升级失败。 -
如果从 3.18 或 4.0 版本升级,且目录中包含 Build of TopoLVM 软件包,必须在执行仅创建目录中所有软件包的 CR步骤之前将其移除。完成该步骤后,需单独创建 TopoLVM 的 CR,并确保包含参数
--target-catalog-source "platform"。
(条件)移除 TopoLVM
如果从 3.18 版本升级且安装了 Build of TopoLVM,必须先备份并删除相关 TopoLVM 资源,否则集群升级将失败。
在 待升级集群的任一控制平面节点上执行:
然后,在 global 集群的任一控制平面节点上执行:
升级 global 集群
如果从 3.16 或 3.18 版本升级,且平台安装了 Data Services,升级集群时必须同时升级相关扩展。
详情请参见升级 Data Services。
- 登录 global 集群的 Web 控制台,切换到 管理员 视图。
- 进入 集群 > 集群 页面。
- 点击
global集群,打开其详情视图。 - 切换到 功能组件 标签页。
- 点击 升级 按钮。
在弹窗中查看可用组件更新,确认后继续。
- Kubernetes 版本升级为可选项,但由于升级过程中可能出现服务中断,建议一并升级 Kubernetes 版本,避免多次维护窗口。
- 如果 global 集群安装了 Alauda Container Platform GitOps 插件,升级后其 Pod 出现异常,请参考 升级 Alauda Container Platform GitOps。
(条件)升级 TopoLVM
如果从 3.18 版本升级且安装了 Build of TopoLVM,且已完成 移除 TopoLVM 步骤,
在待升级集群的控制平面节点上执行以下命令升级 TopoLVM:
执行后等待约 5–10 分钟,TopoLVM 组件将自动升级并在 Web 控制台中反映。
安装 Product Docs 插件
Alauda Container Platform Product Docs 插件提供平台内的产品文档访问,平台中的所有帮助链接均指向该文档。若未安装此插件,点击帮助链接将导致 404 访问错误。
从 4.0 起,内置产品文档已拆分为 Alauda Container Platform Product Docs 插件。如果从 3.x 升级,需要按以下步骤安装该插件:
-
进入 管理员 视图。
-
在左侧边栏点击 Marketplace > 集群插件,选择
global集群。 -
找到 Alauda Container Platform Product Docs 插件,点击 安装。
安装 Alauda Container Platform Cluster Enhancer 插件
此步骤仅确保集群增强插件已安装。如果该集群插件已安装,无需操作。
-
进入 管理员 视图。
-
在左侧边栏点击 Marketplace > 集群插件,选择
global集群。 -
找到 Alauda Container Platform Cluster Enhancer 插件,点击 安装。
(条件)安装 Service Mesh Essentials
如果安装了 Service Mesh v1,请在升级业务集群前参考 Alauda Service Mesh Essentials 集群插件 文档。
升级后操作
global DR 操作步骤
验证数据一致性
按照常规 global DR 检查流程,确保 备用 global 集群 中数据与 主 global 集群 保持一致。
若发现不一致,请联系技术支持,切勿继续操作。
在 两个集群 上执行以下命令,确保没有处于非运行状态的 Machine 节点:
若存在此类节点,请联系技术支持解决后再继续。
卸载 etcd 同步插件
- 通过 IP 或 VIP 访问 主集群 的 Web 控制台。
- 切换到 管理员 视图。
- 进入 目录 > 集群插件。
- 确认已切换到
global集群。 - 找到 EtcdSync 插件并执行 卸载,等待卸载完成。
上传镜像
在 备用集群和主集群 上均执行 上传镜像 步骤。
详情见标准操作步骤中的上传镜像。
升级备用集群
需要访问 备用集群 的 Web 控制台以执行升级。
升级前,请确认备用集群的 ProductBase 资源中 spec.alternativeURLs 配置了集群 VIP。
若未配置,请更新为:
在 备用集群 上,按照标准操作步骤完成升级。
升级主集群
备用集群升级完成后,继续在 主集群 上执行标准操作步骤。
重新安装 etcd 同步插件
重新安装前,请确认端口 2379 已从两个 global 集群 VIP 正确转发到其控制平面节点。
重新安装步骤:
- 通过 IP 或 VIP 访问 备用 global 集群 的 Web 控制台。
- 切换到 管理员 视图。
- 进入 Marketplace > 集群插件。
- 选择
global集群。 - 找到 Alauda Container Platform etcd Synchronizer,点击 安装 并填写所需参数。
验证安装:
检查同步状态
执行以下命令检查同步状态:
输出说明:
"LOCAL ETCD missed keys:"– 表示这些键存在于 主集群,但在备用集群缺失,通常重启 Pod 后可自动恢复。"LOCAL ETCD surplus keys:"– 表示这些键存在于 备用集群,但主集群不存在。请与运维团队确认后再决定是否删除。