安装
目录
前提条件操作步骤在你的 GPU 节点上安装 Nvidia driver安装 Nvidia Container Runtime在 GPU 节点中添加 Nvidia yum 库安装 Nvidia Container Runtime配置 containerd 使用 Nvidia Container Runtime下载集群插件上传集群插件安装 Alauda Build of NVIDIA GPU Device Plugin安装 Alauda Build of DCGM-Exporter前提条件
- 访问你的 ACP 集群的集群管理员权限
- NvidiaDriver: v450+
- ACP version: v3.18,v4.0,v4.1
操作步骤
在你的 GPU 节点上安装 Nvidia driver
建议参考 Nvidia 官方网站安装指南
安装 Nvidia Container Runtime
建议参考 Nvidia Container Toolkit 安装指南
在 GPU 节点中添加 Nvidia yum 库
注意:请确保 GPU 节点可以访问 nvidia.github.io
当出现 "Metadata cache created." 消息时,表示添加成功。
安装 Nvidia Container Runtime
当出现 "Complete!" 提示时,表示安装成功。
配置 containerd 使用 Nvidia Container Runtime
下载集群插件
INFO
Alauda Build of NVIDIA GPU Device Plugin 集群插件可从 customer portal 获取。
如需更多信息,请联系 Consumer Support。
上传集群插件
有关上传集群插件的更多信息,请参阅 上传集群插件
安装 Alauda Build of NVIDIA GPU Device Plugin
-
在你的 GPU 节点上添加标签 "nvidia-device-enable=pgpu",用于 nvidia-device-plugin 调度。
注意:同一个节点不能同时拥有
gpu=on和nvidia-device-enable=pgpu标签 -
前往
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of NVIDIA GPU Device Plugin集群插件。 注意:部署表单参数可以保持默认值,或者在了解如何使用后再修改。 -
验证结果。你可以在 UI 中看到 "Installed" 状态,也可以检查 pod 状态:
-
最后,在 ACP 中创建原生应用时,你可以在资源形式中看到
Extended Resources,然后可以选择GPU core。
安装 Alauda Build of DCGM-Exporter
- 前往
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of DCGM-Exporter集群插件: 在弹窗表单中设置节点标签:
- Node Label Key: nvidia-device-enable
- Node Label Value: pgpu
如果你需要为 Hami 启用 dcgm-exporter,还可以添加另一个标签:
- Node Label Key: gpu
- Node Label Value: on
- 验证结果。你可以在 UI 中看到 "Installed" 状态,也可以检查 pod 状态: