升级 Alauda AI
从 1.5 升级到 2.2
目录
安装 Alauda AI 集群组件升级前操作标注已停止的推理服务升级流程升级 Alauda AI Essentials升级 Alauda AI Operator安装 Alauda Build of KServe Operator升级集群插件上传集群插件验证新版本通过 Web Console 升级升级后操作更新已有推理服务验证弃用 Alauda AI Model Serving安装 Alauda AI 集群组件
请访问 Alauda AI Cluster 了解:
由于我们是从之前已管理的版本升级 Alauda AI,请忽略 Creating Alauda AI Instance。
- 下载
Alauda AI和Knative Operator的 operator bundle 软件包(可选)。 - 下载
Alauda Build of KServe的 operator bundle 软件包。 - 将 operator bundle 软件包上传到目标集群。
- 按照以下流程进行升级。
升级前操作
标注已停止的推理服务
从版本 2.2 开始,平台采用 KServe 提供的社区原生停止能力。为确保升级顺利,所有当前处于停止状态的推理服务必须在升级前显式添加注解。
此步骤为升级前的必需操作。未标注已停止的推理服务可能导致升级后出现异常行为。
-
列出所有当前停止的推理服务:
-
对每个停止的推理服务,添加以下注解:
或者直接编辑资源,在
metadata.annotations下添加注解: -
对所有命名空间中所有停止的推理服务重复此操作。
升级流程
以下流程描述如何从 Alauda AI 1.5 升级到 2.2。
升级 Alauda AI Essentials
在 global 集群的功能组件(Functional Components)标签页升级 Alauda AI Essentials。
在 Administrator 视图中,左侧导航进入 Clusters / Cluster,在右侧面板找到 global 集群,点击 Functional Components 标签页中的 Upgrade 按钮触发升级。
所有需要升级的组件,包括 Alauda AI Essentials,将一并升级,无法单独升级。
升级完成后,请确认列表中 Alauda AI Essentials 状态为 Running,版本为 v2.2.x。
升级 Alauda AI Operator
operator 的升级流程几乎相同,仅目标组件不同。
新版本上传并被平台识别后,operator 页面顶部会出现升级提示。
安装 Alauda Build of KServe Operator
从版本 2.2 开始,Alauda Build of KServe 作为独立 operator 插件提供,支持更专业灵活的模型服务能力。完成核心 AI operator 升级后,必须安装 KServe operator 以启用模型服务功能。
详细安装与配置步骤请参见 Alauda Build of KServe Installation Guide。
升级集群插件
仅当您部署了以下任一集群插件时,此步骤才必需:Alauda AI Workbench、Alauda AI MLflow 或 Alauda AI Volcano。未部署则可跳过。
更多集群插件信息,请参见 Alauda Container Platform - Extend。
升级集群插件的流程包括上传新版本包,然后通过 Web Console 进行升级。需升级的插件包括:
- Alauda AI Workbench
- Alauda AI MLflow
- Alauda AI Volcano
上传集群插件
将新的集群插件包上传至 global 集群。详细上传操作请参见 Uploading Cluster Plugins。
对每个已部署插件重复上传操作。
上传完成后,等待约 10–15 分钟,平台同步新版本信息。
验证新版本
进入 Administrator > Marketplace > Upload Packages,切换到 Cluster Plugin 标签页,确认每个上传插件显示新版本。
通过 Web Console 升级
- 进入 Administrator > Clusters > Clusters。
- 点击部署插件的集群。
- 切换到集群详情页的 Functional Components 标签页。
- 找到有可升级版本的集群插件,旁边会显示升级图标。
- 点击想升级插件的 Upgrade 按钮。
- 在弹窗中确认升级信息和插件版本,点击 Upgrade 开始升级。
对每个已部署插件重复此流程。
新版本上传并被平台识别后,集群详情页 Features 标签页中对应插件的 Upgrade 按钮将可用。
升级后操作
更新已有推理服务
由于版本 2.2 中 KServe 的产品模式定义和 InferenceService 资源存在破坏性变更,所有升级前存在的推理服务必须手动更新。
此步骤对所有升级前存在的推理服务均为必需。未执行更新可能导致推理服务异常。
对每个已有推理服务,执行以下操作:
-
进入推理服务详情页。
-
点击 Update Inference Service。
-
在更新页面右上角点击 YAML 切换按钮,切换到 YAML 视图。
-
定位到
spec.predictor.model.name字段。 -
删除
name字段及其值。例如,若 YAML 包含:
删除后应为:
-
点击 Save 应用更改。
-
对所有升级前存在的推理服务重复此操作。
验证
Alauda AI
检查名为 default 的 AmlCluster 资源的状态字段:
应返回 Ready:
Alauda Build of KServe
检查命名空间 kserve-operator 中名为 default-kserve 的 KServe 资源状态字段:
应返回 DEPLOYED: True:
其他集群插件
在 Administrator 视图中,进入 Marketplace > Cluster Plugins,确认以下集群插件显示为 Installed 状态且版本为新版本:
- Alauda AI Workbench(如已部署)
- Alauda AI MLflow(如已部署)
- Alauda AI Volcano(如已部署)
弃用 Alauda AI Model Serving
从 Alauda AI 2.x 系列开始,传统的 Alauda AI Model Serving operator 被弃用。强烈建议需要无服务器推理能力的用户尽快切换至 Knative Operator,以确保长期支持和获取最新功能。
关于如何迁移无服务器工作负载到新 operator,请参见 Migrating to Knative Operator 指南。