升级 Alauda AI
从 1.4 升级到 1.5
目录
安装 Alauda AI 集群组件升级流程升级 Alauda AI Essentials升级 Alauda AI Operators升级集群插件上传集群插件验证新版本通过 Web Console 升级启用微调和训练功能验证安装 Alauda AI 集群组件
请访问 Alauda AI Cluster 了解:
由于我们是从之前已管理的版本升级 Alauda AI,请忽略“创建 Alauda AI 集群实例”部分。
升级流程
以下操作步骤描述如何从 Alauda AI 1.4 升级到 1.5。
升级 Alauda AI Essentials
在 global 集群的功能组件(Functional Components)标签页中升级 Alauda AI Essentials。
在 管理员 视图中,进入左侧导航的 Clusters / Cluster,在右侧面板找到 global 集群,点击 Functional Components 标签页上的 升级 按钮以触发升级。
所有需要升级的组件,包括 Alauda AI Essentials,将会一起升级,无法单独升级。
升级完成后,请确认列表中 Alauda AI Essentials 的状态为 Running,版本为 v1.5.x。
升级 Alauda AI Operators
两个 operator 的升级流程几乎相同,仅目标组件不同。
新版本上传并被平台识别后,operator 页面顶部会出现升级提示。
升级集群插件
仅当您已部署以下任一集群插件时,才需要执行此步骤:Alauda AI Workbench、Alauda AI MLflow 或 Alauda AI Volcano。如果未部署这些插件,可跳过此步骤。
有关集群插件的更多信息,请参阅 Alauda Container Platform - Extend。
升级集群插件的流程包括上传新版本软件包,然后通过 Web Console 进行升级。需要升级的插件包括:
- Alauda AI Workbench
- Alauda AI MLflow
- Alauda AI Volcano
上传集群插件
将新的集群插件软件包上传到 global 集群。有关如何上传集群插件的详细说明,请参阅 上传集群插件。
对每个已部署的插件重复上传操作。
上传完成后,请等待约 10–15 分钟,平台同步新版本信息。
验证新版本
进入 管理员 > Marketplace > Upload Packages,切换到 Cluster Plugin 标签页,查找已上传的插件,确认显示新版本。
通过 Web Console 升级
- 进入 管理员 > Clusters > Clusters。
- 点击部署插件的集群。
- 在集群详情页切换到 Functional Components 标签页。
- 找到有可用升级的集群插件,旁边会显示升级图标。
- 点击要升级插件的 升级 按钮。
- 在弹窗中查看升级信息,确认插件版本后点击 升级 按钮开始升级。
对每个已部署的插件重复此操作。
新版本上传并被平台识别后,集群详情页 Features 标签页中对应插件的 升级 按钮将可用。
启用微调和训练功能
如果您希望在升级版本中使用微调和训练功能,则必须执行此步骤。若不需要这些功能,可跳过。
有关微调和训练功能的详细信息,请参阅 启用微调和训练功能。
要启用微调和训练功能,需要通过配置 AmlCluster 资源,将 pretrain 和 tuneModels 标志设置为 true。
-
进入 管理员 > Clusters > Resources。
-
在左侧搜索框输入
amlcluster。 -
点击 Correlated with Cluster 面板,找到名为
default的AmlCluster资源。 -
编辑该资源,在
spec.values.experimentalFeatures下将pretrain和tuneModels设置为true。
- 设置为
true后,左侧导航菜单中会出现 Training 项目。 - 设置为
true后,左侧导航菜单中会出现 Fine-Tuning 项目。
启用这些功能后,请确保已安装以下集群插件:
- 用于训练作业调度的 Volcano 集群插件
- 用于训练实验监控的 MLflow 集群插件(需要 PostgreSQL)
验证
Alauda AI
检查名为 default 的 AmlCluster 资源的状态字段:
应返回 Ready:
Alauda AI Model Serving
检查名为 default-knative-serving 的 KnativeServing 资源的状态字段:
应返回 InstallSuccessful:
Alauda AI 集群插件
在 管理员 视图中,进入 Marketplace > Cluster Plugins,确认以下集群插件显示为 Installed 状态且版本为新版本:
- Alauda AI Workbench(如果已部署)
- Alauda AI MLflow(如果已部署)
- Alauda AI Volcano(如果已部署)