安装

前提条件操作步骤在你的 GPU 节点上安装 Nvidia driver 安装 Nvidia Container Runtime 在 GPU 节点中添加 Nvidia yum 库安装 Nvidia Container Runtime 配置 containerd 使用 Nvidia Container Runtime 下载集群插件上传集群插件安装 Alauda Build of NVIDIA GPU Device Plugin 安装 Alauda Build of DCGM-Exporter

前提条件

访问你的 ACP 集群的集群管理员权限
NvidiaDriver: v450+
ACP version: v3.18,v4.0,v4.1

操作步骤

在你的 GPU 节点上安装 Nvidia driver

建议参考 Nvidia 官方网站安装指南

安装 Nvidia Container Runtime

建议参考 Nvidia Container Toolkit 安装指南

在 GPU 节点中添加 Nvidia yum 库

注意：请确保 GPU 节点可以访问 nvidia.github.io

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
yum makecache -y

当出现 "Metadata cache created." 消息时，表示添加成功。

安装 Nvidia Container Runtime

yum install nvidia-container-toolkit -y

当出现 "Complete!" 提示时，表示安装成功。

配置 containerd 使用 Nvidia Container Runtime

nvidia-ctk runtime configure --runtime=containerd
systemctl restart containerd

下载集群插件

INFO

Alauda Build of NVIDIA GPU Device Plugin 集群插件可从 customer portal 获取。

如需更多信息，请联系 Consumer Support。

上传集群插件

有关上传集群插件的更多信息，请参阅上传集群插件

安装 Alauda Build of NVIDIA GPU Device Plugin

在你的 GPU 节点上添加标签 "nvidia-device-enable=pgpu"，用于 nvidia-device-plugin 调度。
kubectl label nodes {nodeid} nvidia-device-enable=pgpu
注意：同一个节点不能同时拥有 gpu=on 和 nvidia-device-enable=pgpu 标签
前往 Administrator -> Marketplace -> Cluster Plugin 页面，切换到目标集群，然后部署 Alauda Build of NVIDIA GPU Device Plugin 集群插件。注意：部署表单参数可以保持默认值，或者在了解如何使用后再修改。
验证结果。你可以在 UI 中看到 "Installed" 状态，也可以检查 pod 状态：
kubectl get pods -n kube-system | grep "nvidia-device-plugin"
最后，在 ACP 中创建原生应用时，你可以在资源形式中看到 Extended Resources，然后可以选择 GPU core。

安装 Alauda Build of DCGM-Exporter

前往 Administrator -> Marketplace -> Cluster Plugin 页面，切换到目标集群，然后部署 Alauda Build of DCGM-Exporter 集群插件：在弹窗表单中设置节点标签：

Node Label Key: nvidia-device-enable
Node Label Value: pgpu

如果你需要为 Hami 启用 dcgm-exporter，还可以添加另一个标签：

Node Label Key: gpu
Node Label Value: on

验证结果。你可以在 UI 中看到 "Installed" 状态，也可以检查 pod 状态：
kubectl get pods -n kube-system | grep dcgm-exporter

#安装

#目录

#前提条件

#操作步骤

#在你的 GPU 节点上安装 Nvidia driver

#安装 Nvidia Container Runtime

#在 GPU 节点中添加 Nvidia yum 库

#安装 Nvidia Container Runtime

#配置 containerd 使用 Nvidia Container Runtime

#下载集群插件

#上传集群插件

#安装 Alauda Build of NVIDIA GPU Device Plugin

#安装 Alauda Build of DCGM-Exporter

安装

目录

前提条件

操作步骤

在你的 GPU 节点上安装 Nvidia driver

安装 Nvidia Container Runtime

在 GPU 节点中添加 Nvidia yum 库

安装 Nvidia Container Runtime

配置 containerd 使用 Nvidia Container Runtime

下载集群插件

上传集群插件

安装 Alauda Build of NVIDIA GPU Device Plugin

安装 Alauda Build of DCGM-Exporter