升级 Alauda AI
从 1.5 升级到 2.0
目录
安装 Alauda AI 集群组件升级前操作标注已停止的推理服务升级流程升级 Alauda AI Essentials升级 Alauda AI Operators升级集群插件上传集群插件验证新版本通过 Web Console 升级升级后操作更新已有推理服务验证安装 Alauda AI 集群组件
请访问 Alauda AI Cluster 获取:
由于我们是从之前已管理的版本升级 Alauda AI,请忽略“Creating Alauda AI Cluster Instance”部分。
升级前操作
标注已停止的推理服务
从版本 2.0 开始,平台采用社区原生的 KServe 停止能力。为确保升级顺利,所有当前处于停止状态的推理服务必须在升级前显式添加注解。
此步骤为升级前的必需操作。未标注已停止的推理服务可能导致升级后出现异常行为。
-
列出所有当前处于停止状态的推理服务:
-
对每个停止的推理服务,添加以下注解:
或者直接编辑资源,在
metadata.annotations下添加注解: -
对所有命名空间中所有停止的推理服务重复此操作。
升级流程
以下操作步骤描述如何从 Alauda AI 1.5 升级到 2.0。
升级 Alauda AI Essentials
在 global 集群的功能组件标签页升级 Alauda AI Essentials。
在 Administrator 视图中,左侧导航进入 Clusters / Cluster,在右侧面板找到 global 集群,点击 Functional Components 标签页中的 Upgrade 按钮触发升级。
所有需要升级的组件(包括 Alauda AI Essentials)将一并升级,无法单独升级。
升级完成后,请确认列表中 Alauda AI Essentials 的状态为 Running,版本为 v2.0.x。
升级 Alauda AI Operators
两个 operator 的升级流程基本相同,仅目标组件不同。
新版本上传并被平台识别后,operator 页面顶部会出现升级提示。
升级集群插件
仅当您部署了以下任一集群插件时,此步骤才必需:Alauda AI Workbench、Alauda AI MLflow 或 Alauda AI Volcano。未部署则可跳过。
更多集群插件信息请参考 Alauda Container Platform - Extend。
升级集群插件的流程包括上传新版本包,然后通过 Web Console 进行升级。需升级的插件包括:
- Alauda AI Workbench
- Alauda AI MLflow
- Alauda AI Volcano
上传集群插件
将新的集群插件包上传至 global 集群。关于上传集群插件的详细操作,请参考 Uploading Cluster Plugins。
对每个已部署的插件重复上传操作。
上传完成后,等待约 10–15 分钟,平台同步新版本信息。
验证新版本
进入 Administrator > Marketplace > Upload Packages,切换到 Cluster Plugin 标签页,确认每个上传的插件显示新版本。
通过 Web Console 升级
- 进入 Administrator > Clusters > Clusters。
- 点击插件部署的集群。
- 在集群详情页切换到 Functional Components 标签页。
- 找到有升级提示的集群插件,旁边会显示升级图标。
- 点击对应插件的 Upgrade 按钮。
- 在弹窗中确认升级信息和插件版本,点击 Upgrade 开始升级。
对每个已部署插件重复此流程。
新版本上传并被平台识别后,集群详情页 Features 标签页中对应插件的 Upgrade 按钮将可用。
升级后操作
更新已有推理服务
由于版本 2.0 引入了 KServe 产品模式定义和 InferenceService 资源的破坏性变更,所有升级前存在的推理服务必须手动更新。
此步骤对所有升级前存在的推理服务必需。未更新可能导致推理服务异常。
对每个已有推理服务,执行以下操作:
-
进入推理服务详情页。
-
点击 Update Inference Service。
-
在更新页面右上角点击 YAML 切换按钮,切换到 YAML 视图。
-
定位到
spec.predictor.model.name字段。 -
删除
name字段及其值。例如,若 YAML 内容为:
删除后应为:
-
点击 Save 应用更改。
-
对所有升级前存在的推理服务重复此操作。
验证
Alauda AI
检查名为 default 的 AmlCluster 资源的状态字段:
应返回 Ready:
Alauda AI Model Serving
检查名为 default-knative-serving 的 KnativeServing 资源的状态字段:
应返回 InstallSuccessful:
Alauda AI 集群插件
在 Administrator 视图中,进入 Marketplace > Cluster Plugins,确认以下集群插件显示为 Installed 状态且版本为新版本:
- Alauda AI Workbench(如已部署)
- Alauda AI MLflow(如已部署)
- Alauda AI Volcano(如已部署)