升级 Alauda AI

INFO

1.5 升级到 2.0

安装 Alauda AI 集群组件

请访问 Alauda AI Cluster 了解:

WARNING

由于我们是从之前已管理的版本升级 Alauda AI,请忽略“Creating Alauda AI Cluster Instance”部分。

  1. 下载 Alauda AI ClusterKServeless 的 operator bundle 软件包。
  2. 将 operator bundle 软件包上传至目标集群。
  3. 按照以下流程进行升级。

升级前操作

标注已停止的推理服务

从版本 2.0 开始,平台采用社区原生的 KServe 停止能力。为确保升级顺利,所有当前处于停止状态的推理服务必须在升级前显式添加注解。

WARNING

此步骤为升级前的必需操作。未标注已停止的推理服务可能导致升级后出现异常行为。

  1. 列出所有当前已停止的推理服务:

    kubectl get inferenceservices --all-namespaces
  2. 对每个已停止的推理服务,添加以下注解:

    kubectl annotate inferenceservice <name> -n <namespace> serving.kserve.io/stop='true'

    或者直接编辑资源,在 metadata.annotations 下添加注解:

    apiVersion: serving.kserve.io/v1beta1
    kind: InferenceService
    metadata:
      name: <name>
      annotations:
        serving.kserve.io/stop: 'true'
  3. 对所有命名空间中已停止的推理服务重复此操作。

升级流程

以下流程描述如何从 Alauda AI 1.5 升级到 2.0

升级 Alauda AI Essentials

在 global 集群的功能组件(Functional Components)标签页中升级 Alauda AI Essentials

Administrator 视图中,左侧导航进入 Clusters / Cluster,在右侧面板找到 global 集群,点击功能组件标签页中的 Upgrade 按钮触发升级。

INFO

所有需要升级的组件(包括 Alauda AI Essentials)将一并升级,无法单独升级。

升级完成后,请确认列表中 Alauda AI Essentials 的状态为 Running,版本为 v2.0.x

升级 Alauda AI Operators

两个 operator 的升级流程几乎相同,仅目标组件不同。

步骤Alauda AI OperatorAlauda AI Model Serving Operator
1. 进入登录 Web Console,进入 Administrator 视图的 Marketplace > OperatorHub登录 Web Console,进入 Administrator 视图的 Marketplace > OperatorHub
2. 选择选择目标 cluster选择目标 cluster
3. 点击点击 Alauda AI 卡片。点击 Alauda AI Model Serving 卡片。
4. 确认在升级提示中点击 Confirm在升级提示中点击 Confirm
INFO

新版本上传并被平台识别后,operator 页面顶部会出现升级提示。

升级集群插件

INFO

仅当您已部署以下任一集群插件时,此步骤才必需Alauda AI WorkbenchAlauda AI MLflowAlauda AI Volcano。未部署则可跳过此步骤。

有关集群插件的更多信息,请参阅 Alauda Container Platform - Extend

升级集群插件的流程包括上传新版本软件包,然后通过 Web Console 进行升级。需要升级的插件包括:

  • Alauda AI Workbench
  • Alauda AI MLflow
  • Alauda AI Volcano

上传集群插件

将新的集群插件软件包上传至 global 集群。详细上传步骤请参考 Uploading Cluster Plugins

对每个已部署的插件重复上传操作。

INFO

上传完成后,等待约 10–15 分钟,平台同步新版本信息。

验证新版本

进入 Administrator > Marketplace > Upload Packages,切换到 Cluster Plugin 标签页,查找已上传的插件,确认显示新版本。

通过 Web Console 升级

  1. 进入 Administrator > Clusters > Clusters
  2. 点击部署插件的集群。
  3. 切换到集群详情页的 Functional Components 标签页。
  4. 找到有可升级版本的集群插件,旁边会显示升级图标。
  5. 点击想要升级的插件的 Upgrade 按钮。
  6. 在弹窗中确认升级信息和插件版本,点击 Upgrade 开始升级。

对每个已部署插件重复此流程。

INFO

新版本上传并被平台识别后,集群详情页的 Features 标签页中对应插件将显示可用的 Upgrade 按钮。

升级后操作

更新现有推理服务

由于版本 2.0 中 KServe 的 product mode 定义及 InferenceService 资源存在破坏性变更,所有升级前存在的推理服务必须手动更新。

WARNING

此步骤对所有升级前存在的推理服务为必需。未更新可能导致推理服务异常。

对每个现有推理服务,执行以下操作:

  1. 进入推理服务详情页。

  2. 点击 Update Inference Service

  3. 在更新页面右上角点击 YAML 切换按钮,切换到 YAML 视图。

  4. 定位到 spec.predictor.model.name 字段。

  5. 删除 name 字段及其值。

    例如,若 YAML 中包含:

    spec:
      predictor:
        model:
          name: kserve-container
          modelFormat:
            name: sklearn

    删除后应为:

    spec:
      predictor:
        model:
          modelFormat:
            name: sklearn
  6. 点击 Save 应用更改。

  7. 对所有升级前存在的推理服务重复此操作。

验证

Alauda AI

检查名为 defaultAmlCluster 资源的状态字段:

kubectl get amlcluster default

应返回 Ready

NAME      READY   REASON
default   True    Succeeded

Alauda AI Model Serving

检查名为 default-knative-servingKnativeServing 资源的状态字段:

kubectl get KnativeServing.components.aml.dev default-knative-serving

应返回 InstallSuccessful

NAME                      DEPLOYED   REASON
default-knative-serving   True       UpgradeSuccessful

Alauda AI 集群插件

Administrator 视图中,进入 Marketplace > Cluster Plugins,确认以下集群插件显示为 Installed 状态且版本为新版本:

  • Alauda AI Workbench(如果已部署)
  • Alauda AI MLflow(如果已部署)
  • Alauda AI Volcano(如果已部署)