从 AI 1.3 升级
目录
升级前准备
保留推理服务运行时
此步骤确保在升级过程中不会意外删除旧的 ClusterServingRuntime 资源。脚本会为所有 ClusterServingRuntime 资源添加 "helm.sh/resource-policy": "keep" 注解,指示 Helm 在升级时保留这些资源。
在目标集群中执行以下脚本:
迁移 InferenceService 资源
在 Alauda AI 1.4 之前,InferenceService 资源未明确指定其部署模式。升级前,您必须为所有推理服务显式定义部署模式。
此迁移会更新您的推理服务。在 Knative Serverless 模式下,会触发滚动更新:创建新的 revision,旧的仅在新的 Ready 后删除。
如果服务可能受资源限制(GPU/CPU/内存),请安排维护窗口或在运行脚本前临时停止服务。
在目标集群中执行以下脚本:
安装 Alauda AI 集群组件
请访问 Alauda AI Cluster 了解:
请忽略“创建 Alauda AI 集群实例”,因为我们是从之前已管理的版本升级 Alauda AI。
升级流程
以下操作步骤描述如何从 AI 1.3 升级到 Alauda AI 1.4。
升级 Alauda AI Essentials
Alauda AI Essentials 将与 global 集群的功能组件一起升级。
在 管理员 视图中,导航至左侧菜单的 Clusters / Cluster,在右侧面板找到 global 集群,点击 Functional Components 标签页中的 Upgrade 按钮触发升级。
所有需要升级的组件,包括 Alauda AI Essentials,将一起升级,无法单独升级。
升级完成后,请确认列表中 Alauda AI Essentials 的状态为 Running,版本为 v1.4.x。
升级 Alauda AI Operators
两个 operator 的升级步骤几乎相同,仅目标组件不同。
新版本上传并被平台识别后,operator 页面顶部会出现升级提示。
验证
Alauda AI
检查名为 default 的 AmlCluster 资源的状态字段:
应返回 Ready:
Alauda AI Model Serving
检查名为 default-knative-serving 的 KnativeServing 资源的状态字段:
应返回 InstallSuccessful: