安装

前提条件

  • 访问你的 ACP 集群的集群管理员权限
  • NvidiaDriver: v450+
  • ACP version: v3.18,v4.0,v4.1

操作步骤

在你的 GPU 节点上安装 Nvidia driver

建议参考 Nvidia 官方网站安装指南

安装 Nvidia Container Runtime

建议参考 Nvidia Container Toolkit 安装指南

在 GPU 节点中添加 Nvidia yum 库

注意:请确保 GPU 节点可以访问 nvidia.github.io

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
yum makecache -y

当出现 "Metadata cache created." 消息时,表示添加成功。

安装 Nvidia Container Runtime

yum install nvidia-container-toolkit -y

当出现 "Complete!" 提示时,表示安装成功。

配置 containerd 使用 Nvidia Container Runtime

nvidia-ctk runtime configure --runtime=containerd
systemctl restart containerd

下载集群插件

INFO

Alauda Build of NVIDIA GPU Device Plugin 集群插件可从 customer portal 获取。

如需更多信息,请联系 Consumer Support。

上传集群插件

有关上传集群插件的更多信息,请参阅 上传集群插件

安装 Alauda Build of NVIDIA GPU Device Plugin

  1. 在你的 GPU 节点上添加标签 "nvidia-device-enable=pgpu",用于 nvidia-device-plugin 调度。

    kubectl label nodes {nodeid} nvidia-device-enable=pgpu

    注意:同一个节点不能同时拥有 gpu=onnvidia-device-enable=pgpu 标签

  2. 前往 Administrator -> Marketplace -> Cluster Plugin 页面,切换到目标集群,然后部署 Alauda Build of NVIDIA GPU Device Plugin 集群插件。 注意:部署表单参数可以保持默认值,或者在了解如何使用后再修改。

  3. 验证结果。你可以在 UI 中看到 "Installed" 状态,也可以检查 pod 状态:

    kubectl get pods -n kube-system | grep  "nvidia-device-plugin"
  4. 最后,在 ACP 中创建原生应用时,你可以在资源形式中看到 Extended Resources,然后可以选择 GPU core

安装 Alauda Build of DCGM-Exporter

  1. 前往 Administrator -> Marketplace -> Cluster Plugin 页面,切换到目标集群,然后部署 Alauda Build of DCGM-Exporter 集群插件: 在弹窗表单中设置节点标签:
  • Node Label Key: nvidia-device-enable
  • Node Label Value: pgpu

如果你需要为 Hami 启用 dcgm-exporter,还可以添加另一个标签:

  • Node Label Key: gpu
  • Node Label Value: on
  1. 验证结果。你可以在 UI 中看到 "Installed" 状态,也可以检查 pod 状态:
    kubectl get pods -n kube-system | grep dcgm-exporter