升级 Alauda AI
从 1.5 升级到 2.0
目录
安装 Alauda AI 集群组件升级前操作标注已停止的推理服务升级流程升级 Alauda AI Essentials升级 Alauda AI Operators升级集群插件上传集群插件验证新版本通过 Web Console 升级升级后操作更新现有推理服务验证安装 Alauda AI 集群组件
请访问 Alauda AI Cluster 了解:
由于我们是从之前已管理的版本升级 Alauda AI,请忽略“Creating Alauda AI Cluster Instance”部分。
升级前操作
标注已停止的推理服务
从版本 2.0 开始,平台采用社区原生的 KServe 停止能力。为确保升级顺利,所有当前处于停止状态的推理服务必须在升级前显式添加注解。
此步骤为升级前的必需操作。未标注已停止的推理服务可能导致升级后出现异常行为。
-
列出所有当前已停止的推理服务:
-
对每个已停止的推理服务,添加以下注解:
或者直接编辑资源,在
metadata.annotations下添加注解: -
对所有命名空间中已停止的推理服务重复此操作。
升级流程
以下流程描述如何从 Alauda AI 1.5 升级到 2.0。
升级 Alauda AI Essentials
在 global 集群的功能组件(Functional Components)标签页中升级 Alauda AI Essentials。
在 Administrator 视图中,左侧导航进入 Clusters / Cluster,在右侧面板找到 global 集群,点击功能组件标签页中的 Upgrade 按钮触发升级。
所有需要升级的组件(包括 Alauda AI Essentials)将一并升级,无法单独升级。
升级完成后,请确认列表中 Alauda AI Essentials 的状态为 Running,版本为 v2.0.x。
升级 Alauda AI Operators
两个 operator 的升级流程几乎相同,仅目标组件不同。
新版本上传并被平台识别后,operator 页面顶部会出现升级提示。
升级集群插件
仅当您已部署以下任一集群插件时,此步骤才必需:Alauda AI Workbench、Alauda AI MLflow 或 Alauda AI Volcano。未部署则可跳过此步骤。
有关集群插件的更多信息,请参阅 Alauda Container Platform - Extend。
升级集群插件的流程包括上传新版本软件包,然后通过 Web Console 进行升级。需要升级的插件包括:
- Alauda AI Workbench
- Alauda AI MLflow
- Alauda AI Volcano
上传集群插件
将新的集群插件软件包上传至 global 集群。详细上传步骤请参考 Uploading Cluster Plugins。
对每个已部署的插件重复上传操作。
上传完成后,等待约 10–15 分钟,平台同步新版本信息。
验证新版本
进入 Administrator > Marketplace > Upload Packages,切换到 Cluster Plugin 标签页,查找已上传的插件,确认显示新版本。
通过 Web Console 升级
- 进入 Administrator > Clusters > Clusters。
- 点击部署插件的集群。
- 切换到集群详情页的 Functional Components 标签页。
- 找到有可升级版本的集群插件,旁边会显示升级图标。
- 点击想要升级的插件的 Upgrade 按钮。
- 在弹窗中确认升级信息和插件版本,点击 Upgrade 开始升级。
对每个已部署插件重复此流程。
新版本上传并被平台识别后,集群详情页的 Features 标签页中对应插件将显示可用的 Upgrade 按钮。
升级后操作
更新现有推理服务
由于版本 2.0 中 KServe 的 product mode 定义及 InferenceService 资源存在破坏性变更,所有升级前存在的推理服务必须手动更新。
此步骤对所有升级前存在的推理服务为必需。未更新可能导致推理服务异常。
对每个现有推理服务,执行以下操作:
-
进入推理服务详情页。
-
点击 Update Inference Service。
-
在更新页面右上角点击 YAML 切换按钮,切换到 YAML 视图。
-
定位到
spec.predictor.model.name字段。 -
删除
name字段及其值。例如,若 YAML 中包含:
删除后应为:
-
点击 Save 应用更改。
-
对所有升级前存在的推理服务重复此操作。
验证
Alauda AI
检查名为 default 的 AmlCluster 资源的状态字段:
应返回 Ready:
Alauda AI Model Serving
检查名为 default-knative-serving 的 KnativeServing 资源的状态字段:
应返回 InstallSuccessful:
Alauda AI 集群插件
在 Administrator 视图中,进入 Marketplace > Cluster Plugins,确认以下集群插件显示为 Installed 状态且版本为新版本:
- Alauda AI Workbench(如果已部署)
- Alauda AI MLflow(如果已部署)
- Alauda AI Volcano(如果已部署)