发版日志

4.3.0

发布日期:2026-04-16

特性与增强

支持 Kubernetes 1.34

ACP 4.3 为平台托管集群场景新增了对 Kubernetes 1.34 的支持。

对于升级到 ACP 4.3,业务集群兼容版本为 1.34、1.33、1.32 和 1.31。此兼容版本要求用于判断 global 集群是否可以升级,并且与第三方集群管理范围相互独立。

更多信息,请参见 Kubernetes Support Matrix

基于 CVO 的集群升级工作流

ACP 4.3 为 global 集群和业务集群引入了基于 Cluster Version Operator (CVO) 的升级工作流。

主要能力包括:

  • 使用 bash upgrade.sh 准备升级工件和 upgrade controller
  • 在执行前运行预检检查
  • 通过 Web Console 或更新 ClusterVersionShadow.spec.desiredUpdate 发起升级
  • cvsh.status 中查看 conditions、预检结果、阶段和历史记录

ACP CLI 还新增了面向升级的管理员命令,例如 ac adm upgradeac adm upgrade status--to-latest--to--allow-explicit-upgrade,用于从当前上下文请求并排查业务集群升级问题。

有关操作指导,请参见 Upgrade

独立集群插件升级

ACP 4.3 为使用 AlignedAgnostic 生命周期的集群插件新增了独立升级支持。

Cluster Plugins 页面现在会显示插件生命周期,符合条件的插件可以从列表页或详情页独立升级。Core 插件仍然会随集群升级而升级。

基于 Alauda OS 的华为 DCS global 集群

ACP 4.3 允许管理员在华为 DCS 上使用基于 Alauda OS 的不可变基础设施创建 global 集群。这样将不可变运维模式从业务集群扩展到了 DCS 上的平台安装场景。

更多信息,请参见 About Immutable Infrastructure

不可变基础设施中的 Huawei Cloud Stack 支持

ACP 4.3 为 Huawei Cloud Stack (HCS) 新增了不可变基础设施支持。HCS provider 文档现在在不可变基础设施文档集中涵盖了 provider 概览、安装、集群创建、节点管理、集群升级以及 provider APIs。

更多信息,请参见 About Immutable Infrastructure

4.3 周期中的 VMware vSphere 支持

ACP 4.3 开始引入对 VMware vSphere 的不可变基础设施支持。相关 provider 工作现已纳入不可变基础设施文档集,而公开安装细节和最终的插件命名仍在持续发布中。

更多信息,请参见 About Immutable Infrastructure

新的 Web Console 预览入口

ACP Core 现在提供了下一代 Web Console 体验所需的顶部导航锚点。当在 global 集群上安装了 Alauda Container Platform Web Console Base 时,Container PlatformAdministrator 视图中的用户可以通过单独的浏览器标签页中的 Preview Next-Gen Console 入口打开新控制台。

该体验面向渐进式迁移而设计,可与 global 集群上的 Web Console Base 插件以及业务集群上的 Web Console Collector 插件配合使用。

containerd 2.0 基线

ACP 4.3 将平台运行时基线升级到 containerd 2.0。对于依赖自定义 containerd 配置的环境,请在升级前检查相关运行时运维流程。

扩展的第三方集群管理范围

对于第三方集群,ACP 4.3 现在接受范围为 >=1.19.0 <1.35.0 的 Kubernetes 版本。

此管理范围与用于判断 global 集群是否可以升级的兼容 Kubernetes 版本范围相互独立。

产品文档将继续只发布已通过产品验证、可用于第三方集群支持以及默认 Extend 基线的 Kubernetes 版本。

Extend 基线的产品验证覆盖以下能力领域:

  • 安装和使用 Operator
  • 安装和使用集群插件
  • 基于 ClickHouse 的日志
  • 基于 VictoriaMetrics 的监控

这并不意味着所有特定的 Operator 或集群插件都经过了产品验证。

对于该基线之外的特定 Operator 或集群插件,请参考相关产品文档或联系技术支持。

更多信息,请参见 Kubernetes Support MatrixImport Standard Kubernetes Cluster

扩展的监控插件配置

ACP 4.3 扩展了监控插件的配置选项,使监控部署更容易适配 infra-node 放置策略和不同的存储布局。

对于使用 VictoriaMetrics 的 ACP Monitoring,管理员现在可以:

  • 配置插件级别的 node selector 和 tolerations,将工作负载放置在专用 infra 节点上
  • Storage TypeLocalVolume 时,配置 VictoriaMetrics 的数据存储目录
  • 取消此前 VictoriaMetrics 部署的三节点限制

对于使用 Prometheus 的 ACP Monitoring,管理员现在可以配置插件级别的 node selector 和 tolerations,从而通过插件配置将监控工作负载调度到专用 infra 节点。

WARNING

如果你之前使用 patch resources 或基于 override 的自定义方式分别定义了 node selector 或 tolerations,那么在升级到 ACP 4.3 后需要更新插件配置。在更新后的插件配置生效后,你必须移除相关的 patch resources 或 override 设置。

有关操作指导,请参见 InstallationPlanning Infra Nodes for Monitoring

基于 StatefulSet 的跨集群应用灾难恢复方案

此版本为有状态应用引入了跨集群灾难恢复能力。该方案基于 Active-Passive 双中心架构,结合 Alauda Build of VolSync 异步数据同步和 GitOps 配置分发,实现分钟级 RTO 故障切换。

主要亮点:

  • 主集群处理所有 read/write 流量;备用集群通过周期性的 rsync 快照维护温数据副本(RPO > 0)。
  • 支持三种运行场景:计划迁移、紧急故障切换和故障回切。
  • 备用集群默认以 replicas=0 运行;存储和计算资源保持冷备,不承载业务流量。
  • 适用于没有严格零数据丢失要求(RPO = 0)的工作负载。对于金融或事务型核心应用,请改用原生数据库复制。

更多详情,请参见:[基于 StatefulSet 的跨集群应用灾难恢复]((https://cloud.alauda.io/kb#/solutions/acp/StatefulSet_Application_DR.html)

Alauda Container Platform Registry - 镜像管理增强

此版本新增了 ac imagesac adm prune images 命令,可通过命令行对 Registry 镜像进行全生命周期管理。

  • ac get images:列出 Registry 中的镜像。结果仅限当前用户有权限访问的命名空间,并支持按命名空间过滤以及多种输出格式(tablejsonyamlwide)。
  • ac delete images:按 Registry 路径删除一个或多个镜像标签。内置命名空间权限检查;默认以 dry-run 模式运行以预览影响,并且需要 --confirm 才会执行实际删除。
  • ac adm prune images:管理员命令,用于清理未被任何集群 Pod 引用的镜像 manifest。灵活的清理策略包括保留时长、保留数量、allowlist 和 --all 范围。还可在清理后可选触发 Registry GC,也支持通过 CronJob 执行定时清理。

更多详情,请参见:集群镜像 Registry 清理:管理员手动与定时任务指南

Alauda Container Platform Project Application Essential(Alpha)

此版本引入了 Alauda Container Platform Project Application Essential 插件,该插件基于全新的 Next-Gen Console 前端框架构建。部署在 global 集群后,它可从以项目为中心的视角提供跨集群应用编排和全生命周期管理,并完全遵循用户权限。

主要亮点:

  • 跨集群编排:在单个项目内将应用统一部署到多个成员集群。
  • 全生命周期管理:支持 createupdatescalerollbackdelete,并可在集群之间实时同步应用状态。
  • 项目隔离:所有操作都限定在项目边界内,确保项目之间天然隔离。
  • 权限感知:严格执行 RBAC 权限,仅显示用户有权访问的资源。

Underlay 和 Egress Gateway 增强

ACP 4.3 扩展了围绕 underlay 访问和 egress gateway 操作的核心 CNI 网络能力。

主要增强包括:

  • 为 egress gateway 工作负载提供更好的高可用和快速切换设计,降低节点维护或故障切换期间对服务的影响。
  • 为 egress gateway Pods 提供资源保护指导和平台支持,帮助降低流量突增或副本增长时的节点资源争用风险。
  • 支持为 egress gateway 工作负载配置 taints,从而在专用节点上实现更好的放置隔离。
  • 支持管理 underlay NIC 的 VLAN 子接口。
  • 新增对子网资源的 YAML 编辑支持。
  • 新增对集中式网关节点选择器设置的支持。
  • 为集中式网关场景新增 subnet CRD 支持。

这些增强使 ACP 能够更好地适应复杂的企业网络环境,并简化从早期暴露模型向基于 underlay 的设计迁移的过程。

Gateway API 增强

ACP 4.3 强化了 Gateway API 作为平台中关键七层负载均衡能力的地位。

主要增强包括:

  • 支持基于 host-network 的网关部署场景。
  • 支持通过 metalLB + Envoy Gateway proxy + underlay 暴露服务,使业务流量可以绕过管理网络。
  • 支持为 Gateway API 配置自定义 VIP 地址,帮助在重建或生命周期变更期间保持服务暴露地址稳定。

基于 PVC 保护的有状态应用灾难恢复

ACP 4.3 为有状态工作负载引入了更强的灾难恢复能力,包括 基于 PVC 的灾难恢复,以及对 基于 VolSync 的备份和恢复工作流 的支持,适用于如 MinIO 之类的存储型应用。

此增强提升了有状态应用的跨集群恢复准备度,并为存储密集型生产环境提供了更实用的保护路径。

Ceph 存储管理增强

ACP 4.3 改进了存储运维和基于 Ceph 的工作负载支持。

主要增强包括:

  • 新增了在 UI 中将磁盘放入不同 Ceph pool 的支持。
  • 改进了对 Ceph 磁盘替换场景的运维支持。

这些改进提升了日常存储运维能力,并使基于 Ceph 的环境在生产中更易于管理。

虚拟化平台增强

ACP 4.3 带来了若干重要的虚拟化相关改进。

主要增强包括:

  • 改进了 VM 创建和展示工作流。
  • 新增了对虚拟化相关场景中 Astra Linux 的支持。
  • 新增了对虚拟机多 NIC 和 NIC 热插拔能力的支持。

这些增强提升了虚拟化的易用性,并扩展了企业环境中的 guest 工作负载兼容性。

弃用和移除的特性

Operation Statistics 下线

计量和计费插件现在已正式可用,并且完全覆盖了此前由 Operation Statistics 功能提供的能力。因此,Platform Management 下的顶层 Operations Statistics 入口将被移除。

  • 对于新部署的平台,将不再安装 Operations Statistics 组件。如果你需要计量或计费能力,请使用 Cost Management 插件。
  • 对于已升级的平台,Operations Statistics 的计量采集会在升级后停止,但历史数据仍然可用。如果你需要数据清理或迁移,请提交支持请求。

已修复问题

  • 修复了 olm-registry pod 持续重启导致 OperatorHub 无法正常使用的问题。该问题由 CIS 合规加固时添加的 `seccompProfile: RuntimeDefault` 安全配置引起,该配置拦截了 CGO 操作所需的 `clone` 系统调用。已调整 seccomp 配置以允许必要的系统调用,同时保持安全合规性。已在 ACP 4.3.0 修复。
  • 修复了当集群安装 60+ 个 Operator 时,原生应用创建接口权限校验极慢(10秒以上)的性能问题。已在 ACP 4.3.0 修复。
  • 当使用 Alauda Container Platform Cluster Enhancer 提供的 etcd 备份功能时,如果用户配置将 etcd 备份到 S3 存储,插件无法获取 secretRef 中引用的 Secret 对象。原因是插件缺少读取 Secret 的 RBAC 权限,导致 S3 认证信息获取失败。此问题已在 ACP 4.3.0 中修复。
  • 当使用 Alauda Container Platform Monitoring for VictoriaMetrics 且多个集群共享同一个 Storage 时,告警策略 cpaas-certificates-rule 存在两个问题:告警触发时无法区分来自哪个集群,以及该策略会监控客户的 secret 而非仅监控平台证书。
  • 修复 metis 组件 storage limit 配置太小,在超出限制后导致 metis 容器重启
  • 修复了在业务应用使用自定义 ServiceAccount 的场景下,imagePullSecret 未自动注入导致镜像拉取失败的问题。
  • 修复了在 image-registry 的 imagePullSecret 自动轮询通过“新建 Secret + 删除旧 Secret”进行轮转、且历史 Pod 仍引用旧 Secret 并在 Secret 过期后才启动的场景下,Pod 无法拉取镜像的问题。
  • 修复了命名空间创建特殊场景下触发的异常。当进入创建命名空间页面的时候,如果页面请求返回比较慢,刚进页面的时候可能会导致没有默认选中的集群信息,从而触发页面其他接口的报错,导致页面项目配额无法正常展示。
  • 调整了实时日志组件中的部分文案, Logging has ended => End of logs
  • 修复了windows 上编辑 configmap 的时候,换行符和 mac 上行为不一致的问题。

已知问题

  • 用户使用 kubectl top node 命令查询节点用量时会返回报错,该问题已在 4.3.1 版本解决。
  • 使用 violet push 推送 chart package 时,虽然 push 显示成功,但该 package 在 public-charts 仓库中可能无法看到。
    临时解决方案: 重新 push 一次。
  • 使用 violet push 推送 chart package 时,虽然 push 显示成功,但该 package 在 public-charts 仓库中可能无法看到。
    临时解决方案: 重新 push 一次。
  • 通过 YAML 创建应用时使用 defaultMode 字段导致应用创建失败。
    操作路径:容器平台 → 应用管理 → 应用列表 → 通过 YAML 创建(Create from YAML),当提交的 YAML 文件中包含 defaultMode 字段(通常用于 ConfigMap/Secret 的卷挂载权限配置)时,应用创建会失败并返回校验错误。
    解决方案:创建应用前手动移除 YAML 中所有 defaultMode 声明。
  • 当 Helm Chart 中设置了 pre-delete post-delete hook。
    执行删除模板应用,卸载 Chart 时,遇到某些原因导致 hook 执行失败,进而导致应用无法删除。需要排查原因,并优先解决 hook 执行失败的问题。