升级

本文将介绍如何从 GPU-manager 或旧版 Hami(版本 2.5)升级到最新的 Hami 版本。

GPU-manager 到 Hami

注意

  1. GPU-manager 和 Hami 不能部署在同一节点,但可以部署在同一集群中。
  2. 开始升级时,需要逐个修改应用,这将导致业务 Pod 重启。
  3. 当只有一个 GPU 节点时,需要先卸载 GPU-manager,然后安装 Hami。可以通过修改节点标签来实现两者插件的部署切换。 例如,可以移除该节点上的 nvidia-device-enable=vgpu 节点标签以删除 gpu-manager 实例,然后添加 gpu=on 标签以在该节点部署 hami 插件。

操作步骤

逐个修改您的应用,例如:

您旧的 GPU-manager 实例:

spec:
  containers:
    - image: your-image
      imagePullPolicy: IfNotPresent
      name: gpu
      resources:
        limits:
          cpu: '2'
          memory: 4Gi
          tencent.com/vcuda-core: "50"
          tencent.com/vcuda-memory: "8000"

迁移到 Hami:

spec:
  containers:
    - image: your-image
      imagePullPolicy: IfNotPresent
      name: gpu
      resources:
        limits:
          cpu: '2'
          memory: 4Gi
          nvidia.com/gpualloc: 1     # 请求 1 个物理 GPU(必填)
          nvidia.com/gpucores: "50"  # 请求每个 GPU 50% 的计算资源(可选)
          nvidia.com/gpumem: 8000    # 请求每个 GPU 8000MB 的显存(可选)

Hami 到 Hami

重要变更(v2.5 → v2.6)

版本参数可用性升级后必需操作
Hami v2.5弹出表单中不包含Nvidia Runtime Class NameCreate Nvidia Runtime Class 参数。无需操作
Hami v2.6部署插件实例到新节点时,必须配置这些参数。更新插件部署参数:
- Nvidia Runtime Class Name: hami-nvidia
- Create Nvidia Runtime Class: true(启用开关)

⚠️ 从 v2.5 升级到 v2.6 不应影响现有应用。 ✅ 建议通过滚动更新重启应用,以避免意外问题。


操作步骤

  1. 如有需要,升级 ACP 版本。
  2. 上传 Hami v2.6 插件包到 ACP。
  3. 进入 管理员 -> 集群 -> 目标集群 -> 功能组件 页面,点击 升级 按钮,即可看到 Alauda Build of HAMi 可升级。 集群 -> 目标集群 -> 功能组件 页面,点击 升级 按钮,即可看到 Alauda Build of HAMi 可升级。