升级 global 集群
本页介绍 global 集群的传统操作系统路径。如果你的 global 集群运行在 Immutable Infrastructure(Huawei DCS 上的 Alauda OS、VMware vSphere 或 Huawei Cloud Stack)上,Kubernetes 步骤位于 Immutable Infrastructure 文档中 — 请参见 在 Immutable Infrastructure 上升级 global 集群。本页描述的 Core、Aligned 和 Agnostic 步骤仍然适用于 immutable-OS 集群;不同之处仅在于 Kubernetes 的发布方式。
升级 global 集群还会升级 MySQL operator。如果你有 PXC 实例,在 operator 升级后它们将变为未托管状态。请先查看 MySQL Operator 升级指南,获取迁移说明后再执行升级。
由一个 global 集群和一个或多个业务集群组成。要将平台迁移到新的 ACP Distribution Version,请先将 global 层升级到目标 Distribution Version,然后再将业务集群升级到同一个 Distribution Version。
ACP 4.3 使用基于 CVO 的集群升级工作流。一次典型的 global 集群升级包括制品准备、预检、升级请求和状态观察。
在将 global 集群升级到 ACP 4.3 之前,请确认每个业务集群都运行在兼容的 Kubernetes 版本上。对于 ACP 4.3,兼容版本为 1.34、1.33、1.32 和 1.31。这个前置条件独立于更广泛的第三方集群管理范围。
无论环境是否使用 global DR,此兼容版本前置条件都适用。global DR 会改变用于升级 global 层的操作步骤,但不会改变这样一个要求:在 global 层升级到目标 Distribution Version 之前,业务集群必须始终保持在兼容的 Kubernetes 版本范围内。
global 集群升级遵循本页文档中经过验证的 upgrade.sh 方案。你可以通过 Web Console、更新 ClusterVersionShadow.spec.desiredUpdate,或者使用带 --cluster=global 的 ACP CLI 发起 global 集群升级。关于完整的 AC CLI 工作流和输出解读,请参见 升级集群。关于完整的命令和 flag 语法,请参见 AC CLI 管理员命令参考。
如果环境使用 global DR,请按照 Global DR 操作步骤 执行。否则,请按照下面的标准工作流执行。
标准工作流
global 集群升级会按时间线分阶段执行。大部分工作都会在维护窗口之前完成,这样窗口本身就能保持短而可预测:
阶段 1 和阶段 2 不会改变集群状态 — 请尽早执行,这样维护窗口中只需包含阶段 3。对于规模较小或实验室环境,也可以直接运行单个 bash upgrade.sh,让同步和 CVO 部署一起完成;但生产环境通常会将它们分开执行。
同步升级制品
何时: 维护窗口前的任意时间。此步骤会将制品上传到 registry,不会改变集群状态。
在解压后的 core package 目录中,运行仅同步模式的 upgrade.sh:
--only-sync-image 会上传镜像和插件制品,但不会部署集群版本 operator。CVO 会在稍后的维护窗口中部署 — 请参见 部署集群版本 operator。
upgrade.sh 会同步 CVO 工作流所需的制品,包括:
upgrade.sh 仅覆盖 Core。Aligned 和 Agnostic 插件不会由 upgrade.sh 推送;请在发起升级请求之前,使用 升级前准备 中下载的包,通过 violet 推送它们。
建议在 global 窗口中把每个 operator 包都推送到每个 集群。如果 global 窗口已经结束,而你后来发现某个业务集群缺少 operator 包,那么在业务升级之前仍然可以先把它推送到该业务集群 — 请参见 升级业务集群。
registry 行为取决于环境配置方式:
当目标 registry 不是平台默认值时,请添加 registry 参数:
如果确认某些制品校验是冗余的,可通过 --skip-check-artifacts 绕过制品校验。
在镜像和插件同步完成之前,不要打开维护窗口。
运行预检
何时: 维护窗口前 1–2 周,以便在窗口开启前有时间解决任何阻塞项。
以预检模式运行 upgrade.sh:
预检是只读的 — 它会验证升级准备情况,但不会改变集群状态。
预检会返回两部分:
默认检查集合包括:
ResourcePatchUpgradeableClusterVersionUpgradeableVersionUpgradePathKubernetesVersionSupportedDockerRuntimeUnsupportedClusterRunningClusterModuleStableControlPlaneStaticPodsPresentCustomEtcdBackupCronJobsAbsentCRIUpgradePodsAbsentModuleInfoStablePlatformLicense
在需要时处理预检阻塞项
何时: 在维护窗口之前。请先解决预检发现的所有阻塞项,以免把维护窗口时间耗费在排障上。
如果 ResourcePatchUpgradeable 失败并返回 reason=UnexemptResourcePatches,请检查阻塞的 ResourcePatch,并添加所需的豁免注解:
默认注解键为 config.cpaas.io/exempt-for-ver。
如果临时排障需要禁用特定检查,请配置 cpaas-system/cvo-config:
部署集群版本 operator
何时: 在维护窗口开始时。
以 skip-sync 模式运行 upgrade.sh。由于制品已在 同步升级制品 中上传,因此会跳过同步:
这会部署或更新集群版本 operator(CVO),并完成剩余的准备工作。CVO 会在下一步发起升级后驱动 Core 和 Aligned 插件升级。
请求升级
在集群版本 operator 部署完成后,请通过以下任一入口发起升级。这三个入口是等效的;请选择最适合你操作模型的方式。
当目标版本对该集群可用后,使用此入口。请求流程分两步:
- 在 Step 1 中,查看 RPCH 列表。
- 点击 Acknowledge 继续进入 Step 2。
- 在 Step 2 中,查看 Current Version 和 Target Version。此阶段页面不会显示插件列表或警告面板。
- 目标版本由已准备好的升级制品决定,不能在 Web Console 中手动选择。
- 点击 Start Upgrade。
- 在对话框中确认操作。
- 确认后,页面会显示升级请求已提交,且该操作进入进行中状态。
观察执行情况
使用以下命令查看总体状态:
重要的状态字段:
先关注以下 conditions:
有用的诊断信息:
(条件)升级 Service Mesh Essentials
如果已安装 Service Mesh v1,请在升级业务集群之前参考 Alauda Service Mesh Essentials 集群插件 文档。
从 Marketplace 升级 Agnostic 插件
CVO 负责驱动 Core 和 Aligned 插件。Agnostic 插件不在 CVO 的范围内,并且必须在集群达到目标 Distribution Version 后逐个升级。每个 Agnostic 插件是否需要升级,取决于其自身与 Kubernetes 的兼容性 — 请查看该插件的 release notes,以确认其是否与目标 Kubernetes 版本兼容。
对于 global 集群中正在使用的每个 Agnostic 插件:
- 在 Web Console 中切换到 Administrator 视图。
- 导航到 Marketplace > Cluster Plugins 查看 Agnostic 集群插件,或进入 Agnostic operator 的 operator 工作流。
- 选择目标插件或 operator 并触发升级。Marketplace 升级流程会读取先前通过
violet推送的包。
如果你在升级前跳过了某个 Agnostic 插件的推送,而 Marketplace 未提供目标版本,请先完成 violet push 步骤,然后再重试 Marketplace 升级。
升级后
- 升级 Alauda AI
- 升级 Alauda DevOps
-
在所有业务集群也都达到 ACP 4.3 之后,请按照 禁用 PKCE Plain Method 完成 PKCE 加固。
-
ACP 4.3 修复了一个 API 认证问题:此前某些 API 可能无需认证即可访问。在 global 集群达到 ACP 4.3 后,请将以下 L5 插件升级到与 ACP v4.3 兼容的版本。否则,它们的 UI 页面可能无法打开:
Alauda DevOps v3Alauda AI EssentialsAlauda HyperfluxAlauda Container Platform Data Services Essentials
-
升级插件后,请确认上面列出的每个插件 UI 页面都能成功打开。
Global DR 操作步骤
当环境同时包含主 global 集群和备用 global 集群时,请使用此操作步骤。以下 DR 专用步骤是在标准 CVO 工作流之外额外执行的。
在升级前验证 DR 环境
请按照常规的 global DR 检查流程,确保 备用 global 集群 中的数据与 主 global 集群 一致。有关 DR 拓扑和同步工作流的背景信息,请参见 Global Cluster Disaster Recovery。
如果检测到不一致,请不要在下一步卸载 etcd 同步插件,并在继续之前联系技术支持。如果在备用 global 集群缺少主集群持有的数据时卸载该插件,可能会导致 owner reference 解析错误,并且业务集群的 Machine 对象 — 包括 immutable-OS 集群,在这种情况下这将销毁其背后的虚拟机 — 可能会被删除。
在两个 global 集群上运行以下命令,确保没有处于非运行状态的 Machine 节点:
如果存在这类节点,请先解决后再继续。
从备用 global 集群卸载 etcd 同步插件
- 通过备用 global 集群的 IP 或 VIP 访问其 Web Console。
- 切换到 Administrator 视图。
- 导航到 Marketplace > Cluster Plugins 并选择
global集群。 - 找到 etcd Synchronizer 并卸载它。
- 等待卸载完成后再继续。
在两个 global 集群上同步升级制品
在备用 global 集群和主 global 集群上都完成标准工作流中的 同步升级制品。
两个集群请使用相同的同步模式。
升级备用 global 集群
如果你将使用备用 global 集群上的 Web Console,请确认备用集群的 ProductBase 在 spec.alternativeURLs 中包含备用 VIP:
同步完成后,在备用 global 集群上执行标准工作流中的剩余步骤:
- 运行预检
- 部署集群版本 operator
- 请求升级
- 观察执行情况,直到备用 global 集群达到目标版本
升级主 global 集群
在备用 global 集群达到目标版本后,在主 global 集群上执行标准工作流中的剩余步骤:
- 运行预检
- 部署集群版本 operator
- 请求升级
- 观察执行情况,直到主 global 集群达到目标版本
重新安装 etcd 同步插件并验证同步状态
在重新安装插件之前,请确认在使用该转发模式时,端口 2379 已从两个 global 集群的 VIP 正确转发到其控制平面节点。如果备用 global 集群能够直接访问活动 global 集群,则不需要通过负载均衡器进行端口转发。
要重新安装该插件:
-
在
cpaas-system中创建或更新etcd-sync-active-cluster-tokenSecret。首先,从活动 global 集群获取用于访问活动 global 集群 API server 的 bearer token。然后复制命令输出,并在创建 Secret 时使用它。该 Secret 会将 token 存储在数据键token下。请通过 Active Global Cluster Token Secret 使用此 Secret。旧的 plain-token 配置仅作为兼容性回退保留,并不是推荐的运维路径。复制输出值,然后在备用集群上运行此命令:
-
通过备用 global 集群的 VIP 访问其 Web Console,并切换到 Administrator 视图。
-
导航到 Marketplace > Cluster Plugins 并选择
global集群。 -
找到 etcd Synchronizer,点击 Install,并配置所需参数。
配置该插件时:
- 将 Active Global Cluster VIP 设置为活动 global 集群的 VIP。
- 当端口
2379未通过负载均衡器转发时,请正确设置 Active Global Cluster ETCD Endpoints。 - 将 Standby Cluster ETCD Endpoints 设置为备用集群的 etcd 地址。除非本地 etcd 服务通过其他端点暴露,否则请使用默认值。
- 将 Active Global Cluster Token Secret 设置为
etcd-sync-active-cluster-token。 - 使用 Data Check Interval 的默认值。
- 除非你正在排障,否则请保持 Print detail logs 禁用。
在重新安装期间,系统会先运行 etcd-sync-bootstrap Job,然后才启动 etcd-sync Deployment。只有在该 Job 准备好 remote-etcd-ca、remote-etcd-issuer 和 remote-etcd-client 之后,发布才会继续。
验证 bootstrap Job 和运行时资源:
在继续之前,请等待 kubectl get lease -n cpaas-system etcd-sync-mirror -o jsonpath='{.spec.holderIdentity}' 返回非空值。
验证同步 Pods 正在备用 global 集群上运行,并识别当前 leader:
如果需要重新同步具有 ownerReference 依赖关系的资源,请在 Start Sync update 出现后重新创建当前 leader Pod:
检查同步状态:
输出解读:
LOCAL ETCD missed keys:这些 key 存在于主 global 集群中,但在备用集群中缺失。重启当前etcd-syncleader Pod 后,这种情况通常会自动恢复。LOCAL ETCD surplus keys:这些 key 存在于备用 global 集群中,但在主集群中不存在。请在删除之前与运维团队一起确认这些 key。