升级 Alauda AI

INFO

1.4 升级到 1.5

安装 Alauda AI 集群组件

请访问 Alauda AI Cluster 了解:

WARNING

由于我们是从之前已管理的版本升级 Alauda AI,请忽略“创建 Alauda AI 集群实例”部分。

  1. 下载 Alauda AI ClusterKServeless 的 operator bundle 软件包。
  2. 上传 operator bundle 软件包到目标集群。
  3. 按照以下流程进行升级。

升级流程

以下操作步骤描述如何从 Alauda AI 1.4 升级到 1.5

升级 Alauda AI Essentials

在 global 集群的功能组件(Functional Components)标签页中升级 Alauda AI Essentials

管理员 视图中,进入左侧导航的 Clusters / Cluster,在右侧面板找到 global 集群,点击 Functional Components 标签页上的 升级 按钮以触发升级。

INFO

所有需要升级的组件,包括 Alauda AI Essentials,将会一起升级,无法单独升级。

升级完成后,请确认列表中 Alauda AI Essentials 的状态为 Running,版本为 v1.5.x

升级 Alauda AI Operators

两个 operator 的升级流程几乎相同,仅目标组件不同。

步骤Alauda AI OperatorAlauda AI Model Serving Operator
1. 进入登录 Web Console,进入 管理员 视图下的 Marketplace > OperatorHub登录 Web Console,进入 管理员 视图下的 Marketplace > OperatorHub
2. 选择选择目标 集群选择目标 集群
3. 点击点击 Alauda AI 卡片。点击 Alauda AI Model Serving 卡片。
4. 确认在升级提示中点击 确认在升级提示中点击 确认
INFO

新版本上传并被平台识别后,operator 页面顶部会出现升级提示。

升级集群插件

INFO

仅当您已部署以下任一集群插件时,才需要执行此步骤:Alauda AI WorkbenchAlauda AI MLflowAlauda AI Volcano。如果未部署这些插件,可跳过此步骤。

有关集群插件的更多信息,请参阅 Alauda Container Platform - Extend

升级集群插件的流程包括上传新版本软件包,然后通过 Web Console 进行升级。需要升级的插件包括:

  • Alauda AI Workbench
  • Alauda AI MLflow
  • Alauda AI Volcano

上传集群插件

将新的集群插件软件包上传到 global 集群。有关如何上传集群插件的详细说明,请参阅 上传集群插件

对每个已部署的插件重复上传操作。

INFO

上传完成后,请等待约 10–15 分钟,平台同步新版本信息。

验证新版本

进入 管理员 > Marketplace > Upload Packages,切换到 Cluster Plugin 标签页,查找已上传的插件,确认显示新版本。

通过 Web Console 升级

  1. 进入 管理员 > Clusters > Clusters
  2. 点击部署插件的集群。
  3. 在集群详情页切换到 Functional Components 标签页。
  4. 找到有可用升级的集群插件,旁边会显示升级图标。
  5. 点击要升级插件的 升级 按钮。
  6. 在弹窗中查看升级信息,确认插件版本后点击 升级 按钮开始升级。

对每个已部署的插件重复此操作。

INFO

新版本上传并被平台识别后,集群详情页 Features 标签页中对应插件的 升级 按钮将可用。

启用微调和训练功能

INFO

如果您希望在升级版本中使用微调和训练功能,则必须执行此步骤。若不需要这些功能,可跳过。

有关微调和训练功能的详细信息,请参阅 启用微调和训练功能

要启用微调和训练功能,需要通过配置 AmlCluster 资源,将 pretraintuneModels 标志设置为 true

  1. 进入 管理员 > Clusters > Resources

  2. 在左侧搜索框输入 amlcluster

  3. 点击 Correlated with Cluster 面板,找到名为 defaultAmlCluster 资源。

  4. 编辑该资源,在 spec.values.experimentalFeatures 下将 pretraintuneModels 设置为 true

    apiVersion: amlclusters.aml.dev/v1alpha2
    kind: AmlCluster
    metadata:
      name: default
    spec:
      values:
        experimentalFeatures:
          pretrain: true
          tuneModels: true
  1. 设置为 true 后,左侧导航菜单中会出现 Training 项目。
  2. 设置为 true 后,左侧导航菜单中会出现 Fine-Tuning 项目。
NOTE

启用这些功能后,请确保已安装以下集群插件:

  • 用于训练作业调度的 Volcano 集群插件
  • 用于训练实验监控的 MLflow 集群插件(需要 PostgreSQL)

验证

Alauda AI

检查名为 defaultAmlCluster 资源的状态字段:

kubectl get amlcluster default

应返回 Ready

NAME      READY   REASON
default   True    Succeeded

Alauda AI Model Serving

检查名为 default-knative-servingKnativeServing 资源的状态字段:

kubectl get KnativeServing.components.aml.dev default-knative-serving

应返回 InstallSuccessful

NAME                      DEPLOYED   REASON
default-knative-serving   True       UpgradeSuccessful

Alauda AI 集群插件

管理员 视图中,进入 Marketplace > Cluster Plugins,确认以下集群插件显示为 Installed 状态且版本为新版本:

  • Alauda AI Workbench(如果已部署)
  • Alauda AI MLflow(如果已部署)
  • Alauda AI Volcano(如果已部署)