升级 Alauda AI

INFO

1.5 升级到 2.2

安装 Alauda AI 集群组件

请访问 Alauda AI Cluster 了解:

WARNING

由于我们是从之前已管理的版本升级 Alauda AI,请忽略 Creating Alauda AI Instance

  1. 下载 Alauda AIKnative Operator 的 operator bundle 软件包(可选)。
  2. 下载 Alauda Build of KServe 的 operator bundle 软件包。
  3. 将 operator bundle 软件包上传到目标集群。
  4. 按照以下流程进行升级。

升级前操作

标注已停止的推理服务

从版本 2.2 开始,平台采用 KServe 提供的社区原生停止能力。为确保升级顺利,所有当前处于停止状态的推理服务必须在升级前显式添加注解。

WARNING

此步骤为升级前的必需操作。未标注已停止的推理服务可能导致升级后出现异常行为。

  1. 列出所有当前停止的推理服务:

    kubectl get inferenceservices --all-namespaces
  2. 对每个停止的推理服务,添加以下注解:

    kubectl annotate inferenceservice <name> -n <namespace> serving.kserve.io/stop='true'

    或者直接编辑资源,在 metadata.annotations 下添加注解:

    apiVersion: serving.kserve.io/v1beta1
    kind: InferenceService
    metadata:
      name: <name>
      annotations:
        serving.kserve.io/stop: 'true'
  3. 对所有命名空间中所有停止的推理服务重复此操作。

升级流程

以下流程描述如何从 Alauda AI 1.5 升级到 2.2

升级 Alauda AI Essentials

在 global 集群的功能组件(Functional Components)标签页升级 Alauda AI Essentials

Administrator 视图中,左侧导航进入 Clusters / Cluster,在右侧面板找到 global 集群,点击 Functional Components 标签页中的 Upgrade 按钮触发升级。

INFO

所有需要升级的组件,包括 Alauda AI Essentials,将一并升级,无法单独升级。

升级完成后,请确认列表中 Alauda AI Essentials 状态为 Running,版本为 v2.2.x

升级 Alauda AI Operator

operator 的升级流程几乎相同,仅目标组件不同。

步骤Alauda AI Operator
1. 进入登录 Web Console,在 Administrator 视图中进入 Marketplace > OperatorHub
2. 选择选择目标 cluster
3. 点击点击 Alauda AI 卡片。
4. 确认在升级提示中点击 Confirm
INFO

新版本上传并被平台识别后,operator 页面顶部会出现升级提示。

安装 Alauda Build of KServe Operator

从版本 2.2 开始,Alauda Build of KServe 作为独立 operator 插件提供,支持更专业灵活的模型服务能力。完成核心 AI operator 升级后,必须安装 KServe operator 以启用模型服务功能。

详细安装与配置步骤请参见 Alauda Build of KServe Installation Guide

升级集群插件

INFO

仅当您部署了以下任一集群插件时,此步骤才必需Alauda AI WorkbenchAlauda AI MLflowAlauda AI Volcano。未部署则可跳过。

更多集群插件信息,请参见 Alauda Container Platform - Extend

升级集群插件的流程包括上传新版本包,然后通过 Web Console 进行升级。需升级的插件包括:

  • Alauda AI Workbench
  • Alauda AI MLflow
  • Alauda AI Volcano

上传集群插件

将新的集群插件包上传至 global 集群。详细上传操作请参见 Uploading Cluster Plugins

对每个已部署插件重复上传操作。

INFO

上传完成后,等待约 10–15 分钟,平台同步新版本信息。

验证新版本

进入 Administrator > Marketplace > Upload Packages,切换到 Cluster Plugin 标签页,确认每个上传插件显示新版本。

通过 Web Console 升级

  1. 进入 Administrator > Clusters > Clusters
  2. 点击部署插件的集群。
  3. 切换到集群详情页的 Functional Components 标签页。
  4. 找到有可升级版本的集群插件,旁边会显示升级图标。
  5. 点击想升级插件的 Upgrade 按钮。
  6. 在弹窗中确认升级信息和插件版本,点击 Upgrade 开始升级。

对每个已部署插件重复此流程。

INFO

新版本上传并被平台识别后,集群详情页 Features 标签页中对应插件的 Upgrade 按钮将可用。

升级后操作

更新已有推理服务

由于版本 2.2 中 KServe 的产品模式定义和 InferenceService 资源存在破坏性变更,所有升级前存在的推理服务必须手动更新。

WARNING

此步骤对所有升级前存在的推理服务均为必需。未执行更新可能导致推理服务异常。

对每个已有推理服务,执行以下操作:

  1. 进入推理服务详情页。

  2. 点击 Update Inference Service

  3. 在更新页面右上角点击 YAML 切换按钮,切换到 YAML 视图。

  4. 定位到 spec.predictor.model.name 字段。

  5. 删除 name 字段及其值。

    例如,若 YAML 包含:

    spec:
      predictor:
        model:
          name: kserve-container
          modelFormat:
            name: sklearn

    删除后应为:

    spec:
      predictor:
        model:
          modelFormat:
            name: sklearn
  6. 点击 Save 应用更改。

  7. 对所有升级前存在的推理服务重复此操作。

验证

Alauda AI

检查名为 defaultAmlCluster 资源的状态字段:

kubectl get amlcluster default

应返回 Ready

NAME      READY   REASON
default   True    Succeeded

Alauda Build of KServe

检查命名空间 kserve-operator 中名为 default-kserveKServe 资源状态字段:

kubectl get kserve default-kserve -n kserve-operator

应返回 DEPLOYED: True

NAME             DEPLOYED   REASON
default-kserve   True       UpgradeSuccessful

其他集群插件

Administrator 视图中,进入 Marketplace > Cluster Plugins,确认以下集群插件显示为 Installed 状态且版本为新版本:

  • Alauda AI Workbench(如已部署)
  • Alauda AI MLflow(如已部署)
  • Alauda AI Volcano(如已部署)

弃用 Alauda AI Model Serving

Alauda AI 2.x 系列开始,传统的 Alauda AI Model Serving operator 被弃用。强烈建议需要无服务器推理能力的用户尽快切换至 Knative Operator,以确保长期支持和获取最新功能。

关于如何迁移无服务器工作负载到新 operator,请参见 Migrating to Knative Operator 指南。