发版日志

4.1.5

发布日期: 2026-02-10

已修复问题

  • 修复了 olm-registry pod 持续重启导致 OperatorHub 无法正常使用的问题。该问题由 CIS 合规加固时添加的 `seccompProfile: RuntimeDefault` 安全配置引起,该配置拦截了 CGO 操作所需的 `clone` 系统调用。已调整 seccomp 配置以允许必要的系统调用,同时保持安全合规性。已在 ACP 4.1.5 修复。
  • 修复了当集群安装 60+ 个 Operator 时,原生应用创建接口权限校验极慢(10秒以上)的性能问题。已在 ACP 4.1.5 修复。
  • 修复了 marketplace 插件在 workload 集群安装失败的问题。已在 ACP 4.1.5 修复。
  • Underlay子网开启 u2o 后,偶现子网中的 Pod 无法与子网物理网关通信。
  • 修复 egress gateway 无法路由和 egress gateway 同网段 Pod 流量问题

已知问题

  • 在某些情况下,用户会发现平台自动在 ResourcePatch 资源中记录的操作与用户实际对组件做的修改不一致,导致 ResourcePatch 控制器 apply 时,引发组件的非预期更改。
    临时解决方案: 用户需手动修改 ResourcePatch 资源,使其与预期变更保持一致。
  • 之前在 OperatorHub 中创建集群级别的 Instance 时,由于 web console 自动添加了 metadata.namespace 字段,导致出现 404 报错。此问题已在 ACP 4.2.0 修复。
  • 当使用 Alauda Container Platform Monitoring for VictoriaMetrics 且多个集群共享同一个 Storage 时,告警策略 cpaas-certificates-rule 存在两个问题:告警触发时无法区分来自哪个集群,以及该策略会监控客户的 secret 而非仅监控平台证书。
  • 之前当集群中存在 Display Name 为空的节点时,用户在节点详情页面打开面包屑的节点下拉筛选框,会无法通过输入内容来筛选节点。此问题已在 ACP 4.2.0 修复。
  • 日志归档结束后未删除临时文件,导致磁盘无法得到释放,此问题已修复
  • 调整了实时日志组件中的部分文案, Logging has ended => End of logs
  • 通过 YAML 创建应用时使用 defaultMode 字段导致应用创建失败。
    操作路径:容器平台 → 应用管理 → 应用列表 → 通过 YAML 创建(Create from YAML),当提交的 YAML 文件中包含 defaultMode 字段(通常用于 ConfigMap/Secret 的卷挂载权限配置)时,应用创建会失败并返回校验错误。
    解决方案:创建应用前手动移除 YAML 中所有 defaultMode 声明。
  • 当 Helm Chart 中设置了 pre-delete post-delete hook。
    执行删除模板应用,卸载 Chart 时,遇到某些原因导致 hook 执行失败,进而导致应用无法删除。需要排查原因,并优先解决 hook 执行失败的问题。

4.1.4

发布日期: 2026-01-07

已修复问题

  • 当使用 Alauda Container Platform Cluster Enhancer 提供的 etcd 备份功能时,如果用户配置将 etcd 备份到 S3 存储,插件无法获取 secretRef 中引用的 Secret 对象。原因是插件缺少读取 Secret 的 RBAC 权限,导致 S3 认证信息获取失败。此问题已在 ACP 4.1.4 中修复。
  • 长期未登录而被系统自动禁用的用户,在管理员手动激活后会被再次自动禁用,导致激活操作无法生效。此问题已经解决。
  • 之前 upmachinepool 资源的 status 字段会保存对应的 machine 资源,但未进行排序,导致在每次 reconcile 时都被判定为需要更新,从而造成审计数据过大。该问题现已修复。
  • 平台集群数量较多时,若使用批量设置项目配额功能为项目设置了配额后,将无法对单个集群的项目配额进行更新,此问题已修复。
  • 修复当单个节点上运行超过100个Pod时,可能导致Pod无法启动的速率限制问题。
  • 增强 Ceph灾难恢复指南,包括块存储的全面分步过程。
  • 修复了在项目导入命名空间过程中,修改Pod 安全策略配置不生效的问题。
  • 修复了在控制台中更新 Deployment 时,特定操作顺序会导致容器 lifecycle 配置意外丢失的问题。
  • 修复Multus中导致节点重启时Pod无法启动的竞态问题。

已知问题

  • 修复了 olm-registry pod 持续重启导致 OperatorHub 无法正常使用的问题。该问题由 CIS 合规加固时添加的 `seccompProfile: RuntimeDefault` 安全配置引起,该配置拦截了 CGO 操作所需的 `clone` 系统调用。已调整 seccomp 配置以允许必要的系统调用,同时保持安全合规性。已在 ACP 4.1.5 修复。
  • 修复了当集群安装 60+ 个 Operator 时,原生应用创建接口权限校验极慢(10秒以上)的性能问题。已在 ACP 4.1.5 修复。
  • 修复了 marketplace 插件在 workload 集群安装失败的问题。已在 ACP 4.1.5 修复。
  • 在某些情况下,用户会发现平台自动在 ResourcePatch 资源中记录的操作与用户实际对组件做的修改不一致,导致 ResourcePatch 控制器 apply 时,引发组件的非预期更改。
    临时解决方案: 用户需手动修改 ResourcePatch 资源,使其与预期变更保持一致。
  • 之前在 OperatorHub 中创建集群级别的 Instance 时,由于 web console 自动添加了 metadata.namespace 字段,导致出现 404 报错。此问题已在 ACP 4.2.0 修复。
  • 当使用 Alauda Container Platform Monitoring for VictoriaMetrics 且多个集群共享同一个 Storage 时,告警策略 cpaas-certificates-rule 存在两个问题:告警触发时无法区分来自哪个集群,以及该策略会监控客户的 secret 而非仅监控平台证书。
  • 之前当集群中存在 Display Name 为空的节点时,用户在节点详情页面打开面包屑的节点下拉筛选框,会无法通过输入内容来筛选节点。此问题已在 ACP 4.2.0 修复。
  • 日志归档结束后未删除临时文件,导致磁盘无法得到释放,此问题已修复
  • Underlay子网开启 u2o 后,偶现子网中的 Pod 无法与子网物理网关通信。
  • 修复 egress gateway 无法路由和 egress gateway 同网段 Pod 流量问题
  • 调整了实时日志组件中的部分文案, Logging has ended => End of logs
  • 通过 YAML 创建应用时使用 defaultMode 字段导致应用创建失败。
    操作路径:容器平台 → 应用管理 → 应用列表 → 通过 YAML 创建(Create from YAML),当提交的 YAML 文件中包含 defaultMode 字段(通常用于 ConfigMap/Secret 的卷挂载权限配置)时,应用创建会失败并返回校验错误。
    解决方案:创建应用前手动移除 YAML 中所有 defaultMode 声明。
  • 当 Helm Chart 中设置了 pre-delete post-delete hook。
    执行删除模板应用,卸载 Chart 时,遇到某些原因导致 hook 执行失败,进而导致应用无法删除。需要排查原因,并优先解决 hook 执行失败的问题。

4.1.3

发布日期: 2025-11-03

已修复问题

  • 修复无权限用户访问Alauda Service Mesh页面会一直转圈的问题。
  • 修复在开启 u2o 后,Pod 流表没有正确清理导致访问失败的问题
  • 修复了在平台从 v3.x 升级至 v4.x 后,若业务集群未升级,则其在新自定义监控面板中创建的监控指标无法用于 HPA 的问题。

已知问题

  • 修复了当集群安装 60+ 个 Operator 时,原生应用创建接口权限校验极慢(10秒以上)的性能问题。已在 ACP 4.1.5 修复。
  • 当使用 Alauda Container Platform Cluster Enhancer 提供的 etcd 备份功能时,如果用户配置将 etcd 备份到 S3 存储,插件无法获取 secretRef 中引用的 Secret 对象。原因是插件缺少读取 Secret 的 RBAC 权限,导致 S3 认证信息获取失败。此问题已在 ACP 4.1.4 中修复。
  • 之前 upmachinepool 资源的 status 字段会保存对应的 machine 资源,但未进行排序,导致在每次 reconcile 时都被判定为需要更新,从而造成审计数据过大。该问题现已修复。
  • 平台集群数量较多时,若使用批量设置项目配额功能为项目设置了配额后,将无法对单个集群的项目配额进行更新,此问题已修复。
  • 之前在 OperatorHub 中创建集群级别的 Instance 时,由于 web console 自动添加了 metadata.namespace 字段,导致出现 404 报错。此问题已在 ACP 4.2.0 修复。
  • 当使用 Alauda Container Platform Monitoring for VictoriaMetrics 且多个集群共享同一个 Storage 时,告警策略 cpaas-certificates-rule 存在两个问题:告警触发时无法区分来自哪个集群,以及该策略会监控客户的 secret 而非仅监控平台证书。
  • 之前当集群中存在 Display Name 为空的节点时,用户在节点详情页面打开面包屑的节点下拉筛选框,会无法通过输入内容来筛选节点。此问题已在 ACP 4.2.0 修复。
  • 日志归档结束后未删除临时文件,导致磁盘无法得到释放,此问题已修复
  • Underlay子网开启 u2o 后,偶现子网中的 Pod 无法与子网物理网关通信。
  • 调整了实时日志组件中的部分文案, Logging has ended => End of logs
  • 修复当单个节点上运行超过100个Pod时,可能导致Pod无法启动的速率限制问题。
  • 增强 Ceph灾难恢复指南,包括块存储的全面分步过程。
  • 修复了在控制台中更新 Deployment 时,特定操作顺序会导致容器 lifecycle 配置意外丢失的问题。
  • 修复Multus中导致节点重启时Pod无法启动的竞态问题。
  • 通过 YAML 创建应用时使用 defaultMode 字段导致应用创建失败。
    操作路径:容器平台 → 应用管理 → 应用列表 → 通过 YAML 创建(Create from YAML),当提交的 YAML 文件中包含 defaultMode 字段(通常用于 ConfigMap/Secret 的卷挂载权限配置)时,应用创建会失败并返回校验错误。
    解决方案:创建应用前手动移除 YAML 中所有 defaultMode 声明。
  • 当 Helm Chart 中设置了 pre-delete post-delete hook。
    执行删除模板应用,卸载 Chart 时,遇到某些原因导致 hook 执行失败,进而导致应用无法删除。需要排查原因,并优先解决 hook 执行失败的问题。

4.1.2

发布日期: 2025-10-01

已修复问题

  • 当 Operator 或 Cluster Plugin 中包含多个前端扩展时,前端扩展的左侧导航可能会出现点击无反应的问题。此前的临时解决方法是为扩展的 ConfigMap 添加注解 cpaas.io/auto-sync: "false"。该问题现已在代码层面正式修复。
  • 使用 violet upload 上传 Operator 新版本后,偶尔会出现无法安装新版本的情况。该问题已被修复。
  • global 集群升级后,未升级的业务集群中所有 Applications 以及各种类型的 Workloads 的监控面板将无法正常显示监控数据。

已知问题

  • 当使用 Alauda Container Platform Cluster Enhancer 提供的 etcd 备份功能时,如果用户配置将 etcd 备份到 S3 存储,插件无法获取 secretRef 中引用的 Secret 对象。原因是插件缺少读取 Secret 的 RBAC 权限,导致 S3 认证信息获取失败。此问题已在 ACP 4.1.4 中修复。
  • 之前 upmachinepool 资源的 status 字段会保存对应的 machine 资源,但未进行排序,导致在每次 reconcile 时都被判定为需要更新,从而造成审计数据过大。该问题现已修复。
  • 平台集群数量较多时,若使用批量设置项目配额功能为项目设置了配额后,将无法对单个集群的项目配额进行更新,此问题已修复。
  • 之前在 OperatorHub 中创建集群级别的 Instance 时,由于 web console 自动添加了 metadata.namespace 字段,导致出现 404 报错。此问题已在 ACP 4.2.0 修复。
  • 当使用 Alauda Container Platform Monitoring for VictoriaMetrics 且多个集群共享同一个 Storage 时,告警策略 cpaas-certificates-rule 存在两个问题:告警触发时无法区分来自哪个集群,以及该策略会监控客户的 secret 而非仅监控平台证书。
  • 之前当集群中存在 Display Name 为空的节点时,用户在节点详情页面打开面包屑的节点下拉筛选框,会无法通过输入内容来筛选节点。此问题已在 ACP 4.2.0 修复。
  • 日志归档结束后未删除临时文件,导致磁盘无法得到释放,此问题已修复
  • 调整了实时日志组件中的部分文案, Logging has ended => End of logs
  • 修复了在控制台中更新 Deployment 时,特定操作顺序会导致容器 lifecycle 配置意外丢失的问题。
  • 修复Multus中导致节点重启时Pod无法启动的竞态问题。
  • 修复在开启 u2o 后,Pod 流表没有正确清理导致访问失败的问题
  • 修复了在平台从 v3.x 升级至 v4.x 后,若业务集群未升级,则其在新自定义监控面板中创建的监控指标无法用于 HPA 的问题。
  • 通过 YAML 创建应用时使用 defaultMode 字段导致应用创建失败。
    操作路径:容器平台 → 应用管理 → 应用列表 → 通过 YAML 创建(Create from YAML),当提交的 YAML 文件中包含 defaultMode 字段(通常用于 ConfigMap/Secret 的卷挂载权限配置)时,应用创建会失败并返回校验错误。
    解决方案:创建应用前手动移除 YAML 中所有 defaultMode 声明。
  • 当 Helm Chart 中设置了 pre-delete post-delete hook。
    执行删除模板应用,卸载 Chart 时,遇到某些原因导致 hook 执行失败,进而导致应用无法删除。需要排查原因,并优先解决 hook 执行失败的问题。

4.1.1

发布日期: 2025-09-04

已修复问题

  • 使用 violet upload 对文件夹中的多个 package 进行上传时,以前会因磁盘空间不足而失败。现已优化为自动及时清理已上传的 package,避免出现该错误。
  • 使用 violet upload 对文件夹中的多个 package 进行上传时,以前会因磁盘空间不足而失败。现已优化为自动及时清理已上传的 package,避免出现该错误。
  • 修复了在平台升级前执行 `violet push` 导致功能组件异常、阻塞升级的问题。现已将推送镜像与创建 CR分离,用户可选择仅推送镜像而不创建 CR。
  • 之前从集群卸载 Operator 后,其状态会错误地显示为 Absent,尽管实际状态仍为 Ready。用户需要通过 violet upload 手动重新上传才能恢复。此问题现已修复,Operator 在卸载后将正确显示为 Ready。

已知问题

  • 平台集群数量较多时,若使用批量设置项目配额功能为项目设置了配额后,将无法对单个集群的项目配额进行更新,此问题已修复。
  • 之前在 OperatorHub 中创建集群级别的 Instance 时,由于 web console 自动添加了 metadata.namespace 字段,导致出现 404 报错。此问题已在 ACP 4.2.0 修复。
  • 当使用 Alauda Container Platform Monitoring for VictoriaMetrics 且多个集群共享同一个 Storage 时,告警策略 cpaas-certificates-rule 存在两个问题:告警触发时无法区分来自哪个集群,以及该策略会监控客户的 secret 而非仅监控平台证书。
  • 当 Operator 或 Cluster Plugin 中包含多个前端扩展时,前端扩展的左侧导航可能会出现点击无反应的问题。此前的临时解决方法是为扩展的 ConfigMap 添加注解 cpaas.io/auto-sync: "false"。该问题现已在代码层面正式修复。
  • 使用 violet upload 上传 Operator 新版本后,偶尔会出现无法安装新版本的情况。该问题已被修复。
  • 之前当集群中存在 Display Name 为空的节点时,用户在节点详情页面打开面包屑的节点下拉筛选框,会无法通过输入内容来筛选节点。此问题已在 ACP 4.2.0 修复。
  • 日志归档结束后未删除临时文件,导致磁盘无法得到释放,此问题已修复
  • 调整了实时日志组件中的部分文案, Logging has ended => End of logs
  • 修复了在控制台中更新 Deployment 时,特定操作顺序会导致容器 lifecycle 配置意外丢失的问题。
  • 修复Multus中导致节点重启时Pod无法启动的竞态问题。
  • 修复在开启 u2o 后,Pod 流表没有正确清理导致访问失败的问题
  • 修复了在平台从 v3.x 升级至 v4.x 后,若业务集群未升级,则其在新自定义监控面板中创建的监控指标无法用于 HPA 的问题。
  • global 集群升级后,未升级的业务集群中所有 Applications 以及各种类型的 Workloads 的监控面板将无法正常显示监控数据。
  • 通过 YAML 创建应用时使用 defaultMode 字段导致应用创建失败。
    操作路径:容器平台 → 应用管理 → 应用列表 → 通过 YAML 创建(Create from YAML),当提交的 YAML 文件中包含 defaultMode 字段(通常用于 ConfigMap/Secret 的卷挂载权限配置)时,应用创建会失败并返回校验错误。
    解决方案:创建应用前手动移除 YAML 中所有 defaultMode 声明。
  • 当 Helm Chart 中设置了 pre-delete post-delete hook。
    执行删除模板应用,卸载 Chart 时,遇到某些原因导致 hook 执行失败,进而导致应用无法删除。需要排查原因,并优先解决 hook 执行失败的问题。

4.1.0

发布日期: 2025-07-31

特性与增强

不可变基础设施

已发布:

  • Alauda Container Platform DCS Infrastructure Provider
  • Alauda Container Platform Kubeadm Provider

这两个插件的生命周期均为 Agnostic,并与 Alauda Container Platform (ACP) 异步发布。

  • DCS Infrastructure Provider 实现了 Cluster API Infrastructure Provider 接口,并与 Huawei Datacenter Virtualization Solution (DCS) 集成。
  • Kubeadm Provider 负责在基础设施提供器所创建的 VM 上安装并配置 Kubernetes 控制平面和节点。

这两个插件结合后,可在 DCS 上实现全自动化的集群管理。

相关文档正在准备中,并将在发布后同步到在线文档中。

机器配置

已发布:Alauda Container Platform Machine Configuration 生命周期:Agnostic,并与 ACP 异步发布。

Machine Configuration 负责跨集群节点管理文件更新、systemd unit 和 SSH 公钥,提供以下能力:

  • 提供 MachineConfig CRD,用于向主机写入配置。
  • 提供 MachineConfigPool CRD,用于根据 role 标签对节点配置进行分组和管理。
  • 在集群安装完成后,系统会自动创建两个默认的 MachineConfigPool——一个用于控制平面节点,一个用于 worker 节点。此外,用户还可以按需创建自定义 MachineConfigPool。

系统会持续监控配置漂移,并将受影响的节点标记为 Degraded,直到问题解决。

有关该特性的详细信息,请参见 机器配置

etcd 加密

已发布:Alauda Container Platform etcd Encryption Manager 生命周期:Agnostic,并与 ACP 异步发布。

提供对工作负载集群中 etcd 数据加密密钥的周期性轮换,使用 AES-GCM 对 secrets 和 ConfigMap 进行加密。支持在不影响工作负载的情况下无缝重新加密和密钥重新加载,并与最近 8 个密钥保持向后兼容。

更多详情请参见 etcd 加密

Kubernetes 证书轮换器

已发布:Alauda Container Platform Kubernetes Certificates Rotator 生命周期:Agnostic,并与 ACP 异步发布。

支持自动轮换 Kubernetes 组件使用的证书。

更多详情请参见 自动化 Kubernetes 证书轮换

集群增强

已发布:Alauda Container Platform Cluster Enhancer 生命周期:Aligned

新特性与变更如下:

  • etcd 备份:由于使用方式和实现方式存在差异,已将 etcd 备份功能从 Backup & Recovery 迁移到 Cluster Enhancer。同时优化了部署方式,避免在配置变更和升级期间产生冲突。
  • 事件清理:实现了对已过期 Kubernetes event 的外部主动清理,防止其在 etcd 中堆积,从而降低 etcd 负载和重启期间的不稳定风险。
  • 证书监控:将证书管理转换为证书监控,通过告警规则和监控面板进行监测,替代原有的 Certificates 管理功能。同时采用更高效的监控方式来监控 kube-apiserver 使用的 loopback 证书。
  • 集群监控面板迁移:将集群监控资源从 chart-cpaas-monitor 迁移到 Cluster Enhancer。
  • 集群详情图表迁移:将集群详情中的监控图表切换为自定义监控仪表板。

中文语言包

中文语言支持已从平台中解耦,并作为 Chinese Language Pack 插件发布。平台安装后默认使用 English;如果需要中文语言支持,用户可以安装该插件。

创建本地集群

从 ACP 4.1 开始,创建本地集群时仅支持平台提供的最新 Kubernetes 版本,取代了此前可在四个 Kubernetes 版本之间选择的方式。

日志

  • ClickHouse 已升级到 v25.3。
  • 为应用日志新增 POD IP 标签,可按 POD IP 进行过滤。
  • 改进了标准输出日志采集:时间戳字段现在反映日志的实际打印时间,而不是采集组件的时间,从而确保日志按正确顺序展示。

监控

  • Prometheus 已升级到 v3.4.2。
  • 自定义变量现在支持三种类型:Constant、Custom 和 Textbox。
    • Constant:固定值,不会变化。
    • Custom:从预定义列表中选择的值。
    • Textbox:用户手动输入的值。
  • Stat Chart 现在支持 Graph 模式,可在统计值下方显示所选时间段的趋势曲线。
  • Value Mapping 现在支持正则表达式和特殊值。
  • 图表现在支持复制,可在当前监控面板中复制图表。

租户管理

  • 项目配额现在支持自定义资源配额和存储类配额。
  • 该插件提供了新的指标:cpaas_project_resourcequotacpaas_project_resourcequota_aggregated,可用于在监控面板中展示项目配额。
    • cpaas_project_resourcequota:在每个集群中均可用。
    • cpaas_project_resourcequota_aggregated:在 global 集群中可用,并汇总所有集群的数据。
  • 自定义角色现在增加了额外限制,仅允许在对应的 role 类型范围内分配权限:
    • 平台角色:可分配所有权限。
    • 项目角色:仅可分配平台预置的 project-admin-system 角色范围内的权限。
    • Namespace 角色:仅可分配平台预置的 namespace-admin-system 角色范围内的权限。
    • 当前用户不具备的权限无法被分配。

面向安全 Pod 执行的自动 UID/GID 分配方案

在 Kubernetes 中,可以为每个 Namespace 配置专用的 User ID (UID) 和 Group ID (GID) 范围。当用户在此类 Namespace 中部署 Pod 时,我们会基于该 Namespace 的预定义安全策略,为 Pod 中的所有容器自动设置 RunAsUser 和 fsGroup。这些用户和组会从该特定 Namespace 获批的 UID/GID 范围内动态分配。

核心能力与价值

  • 增强安全性:通过强制容器以非特权用户身份运行,并限制其 UID/GID 范围,该方案可有效缓解容器逃逸和权限提升等安全风险,遵循最小权限原则。

  • 简化管理:开发者不再需要在每个容器或 Pod 配置中手动指定 UID/GID。只要 Namespace 完成配置,其中部署的所有 Pod 都会自动继承并应用正确的安全设置。

  • 确保合规性:这有助于客户更好地满足内部安全策略和外部合规要求,确保容器化应用运行在受管控环境中。

使用方式

  • 为你的 Namespace 添加 security.cpaas.io/enabled 标签。

基于 Argo Rollouts 的产品化方案

我们基于开源 Argo Rollouts 打造的产品化方案,使用户能够精细控制发布流程。通过实施渐进式、可控的部署策略,它能最大限度降低因发布新特性或新版本而引发的业务中断或故障,显著降低发布风险。

核心能力与价值

  • 蓝绿部署:通过在现有生产环境旁部署新版本,实现零停机更新。经过充分测试后,流量可立即或快速从旧版本切换到新版本。

  • 金丝雀部署:通过将一小部分(例如 5%)生产流量导向新版本,逐步引入新版本,从而观察其性能和稳定性。基于预定义指标(例如错误率或延迟),系统可在检测到问题时自动增加流量或回滚,限制潜在问题的影响范围。

  • 平台认证的 Argo Rollout Chart:你可以直接下载社区开源版 Argo Rollouts,或者选择通过 Alauda Cloud 提供的平台认证版本。

Alauda Container Platform Registry:与平台用户权限深度集成

为了提供更安全、更便捷的镜像管理体验,我们将轻量级镜像仓库与平台现有的用户权限系统进行了更深度的集成。

核心能力与价值

  • 与平台用户系统深度集成:镜像仓库与平台的用户认证和基于角色的访问控制(RBAC)机制无缝集成。开发者、测试人员和管理员可直接使用现有的平台凭证,无需额外配置或单独的账号管理。平台会自动将用户在 Namespace 内的权限映射为镜像仓库中的相应访问权限。例如,用户只能在其有访问权限的“特定 Namespace”中推送和拉取镜像。

  • 更顺畅的命令行操作:支持通过 CLI 工具执行镜像 pullpush 操作,显著提升操作效率和便利性。

警告

  • 仅支持通过该方案安装 Alauda Container Platform Registry。

基于 KEDA 的自动扩缩容方案

为了让应用能够智能响应实际负载,平台提供了一个基于 KEDA (Kubernetes Event-driven Autoscaling) 的自动扩缩容方案。

核心能力与价值

  • 事件驱动的弹性扩缩:KEDA 支持 70 多种 scaler,可对应用(例如 Deployments、Jobs 等)进行自动扩缩。除传统的 CPU 和内存利用率外,它还可以监控消息队列长度(例如 Kafka、RabbitMQ)、数据库连接数、HTTP 请求速率以及自定义指标。

  • 平台认证的 KEDA Operator:可通过 Alauda Cloud 下载并安装平台认证版本。

方案

  • 该产品提供两种方案:基于 Prometheus 指标的自动扩缩和缩容至 0。

跨集群原生应用灾难恢复方案(Alpha)

平台现已提供全新的、基于 GitOps 的跨集群原生应用灾难恢复(DR)方案,旨在显著提升应用韧性和可用性。

核心能力与价值

  • 多样化 DR 模式:灵活支持面向全局高并发需求的 Active-Active (AA-DR)、用于优化资源利用率的 Active-Standby Dual-Active (AS-DR),以及用于严格保证数据一致性的 Active-Passive (AP-DR)。

  • 自动化 GitOps 同步:借助 GitOps 的能力,结合 ApplicationSet 和 Kustomize,实现跨集群配置自动同步,确保 DR 环境始终处于就绪状态。

  • 灵活的流量管理:利用第三方提供的 DNS 和 GSLB 能力,实现智能、基于健康检查的流量重定向和快速故障切换,最大限度减少服务中断。

  • 多维度数据同步:该方案提供了多种同步方式的指导,包括数据库级、存储级和应用级同步,以确保集群间数据最终一致性,为业务连续性奠定基础。

  • 简化的故障切换流程:明确定义了故障检测、流量重定向、状态接管和服务恢复的详细步骤,确保灾难发生时能够高效、有序地完成故障切换。

注意

  • 灾难恢复方案中的数据同步环节与客户的业务特性和数据量密切相关,因此差异可能较大。实际落地时需要结合客户的具体场景进行针对性处理。

依赖组件全面升级,提升稳定性与安全性

本次发布升级了以下核心组件:

  • KubeVirt 升级到 v1.5.2

  • Ceph 升级到 18.2.7

  • MinIO 升级到 RELEASE.2025-06-13T11-33-47Z

其他开源依赖也已同步到其最新社区版本,修复了大量已知问题和安全漏洞,以提升系统稳定性和可靠性。

增强虚拟化特性,提升业务连续性与安全性

基于虚拟化环境中的实际应用需求,本次更新引入了以下关键增强:

  • 高可用迁移:当节点发生故障时,自动将虚拟机迁移到健康节点,确保业务连续性不受影响。

  • 虚拟机克隆:可基于现有虚拟机快速创建新虚拟机,显著提升部署效率。

  • 虚拟机模板:支持将现有虚拟机转换为模板,以便快速、批量部署相同配置的环境。

  • 可信计算(vTPM):虚拟机现在支持可信计算特性,进一步增强整体安全性。

这些新特性的详细说明和使用指引已更新至用户手册。

基于 COSI v2 的对象存储服务提供更灵活、更高效的存储管理

Container Object Storage Interface (COSI) 已升级至 v2(alpha),带来了以下增强:

  • 多集群访问:支持同时访问多个不同的 Ceph 或 MinIO 存储集群,实现更高效的集中管理。

  • 细粒度配额管理:支持为不同存储类别灵活设置配额,优化资源利用率。

  • 增强的权限管理:支持创建多种用户访问权限,包括读写、只读和只写模式。

  • 匿名访问支持:Ceph COSI Driver 现在支持匿名访问,可通过 Ingress 配置快速为外部 HTTP 程序提供访问能力。

ALB 进入维护模式

WARNING

ALB 将停止新特性开发,仅接收维护和安全修复。4.1 版本支持 ingress-nginx,4.2 版本支持 Envoy Gateway。

未来规划

  • 对于 ingress 用户,直接使用 ingress-nginx
  • 未来的新特性仅支持 GatewayAPI
  • 除非有强烈的 ALB 独有能力需求(例如项目端口分配),否则避免再提及 ALB

当前在 GatewayAPI 中不支持的 ALB 独有特性

  • 基于端口的网关实例分配

  • 基于 IP 和 IP 段的流量转发

  • 用于负载均衡的 EWMA 算法

  • WAF 使用

  • 规则级监控视图

使用 ingress-nginx 提供 Ingress 能力

引入社区最主流的 Ingress controller 实现,替代现有基于 ALB 的 Ingress 场景。

核心能力与价值

  • 与主流社区实践保持一致,避免沟通歧义

  • Ingress UI 支持自定义 annotations,以充分利用 ingress-nginx 丰富的扩展能力

  • 安全问题修复

Kube-OVN 支持新的高可用多活 Egress Gateway

新的 Egress 机制解决了此前集中式网关的局限性。新的 Egress Gateway 具备以下特性:

  • 通过 ECMP 实现 Active-Active 高可用,支持横向吞吐扩展

  • 通过 BFD 实现 1 秒以内故障切换

  • 复用 underlay 模式,Egress Gateway IP 与 Node 解耦

  • 通过 Namespace selector 和 Pod selector 实现细粒度路由控制

  • 通过 Node selector 灵活调度 Egress Gateway

支持 AdminNetworkPolicy 类型的集群网络策略

Kube-OVN 支持社区新的 Cluster Network Policy API。该 API 允许集群管理员在不需要为每个 Namespace 单独配置的情况下,强制实施网络策略。

相比之前的集群网络策略,优势如下

  • 社区标准 API(替代内部 API)

  • 与 NetworkPolicy 不冲突(优先级高于 NetworkPolicy)

  • 支持优先级设置

更多信息:Red Hat Blog on AdminNetworkPolicy

弃用和移除的功能

移除 Docker Runtime

  • 之前,平台虽然不是新集群的默认 runtime,但仍提供 Docker runtime 镜像。从 ACP 4.1 开始,将不再默认提供 Docker runtime 镜像。

移除 Template Application

  • 原生应用模板原生应用 的入口已正式移除。请确保在升级前将所有 Template Applications 升级为 “Helm Chart Application”。