安装
目录
前提条件
- 对您的 ACP 集群具有集群管理员权限
- NvidiaDriver:v450 及以上版本
- ACP 版本:v3.18、v4.0、v4.1
操作步骤
在您的 GPU 节点安装 Nvidia 驱动
建议参考 Nvidia 官方网站安装指南
安装 Nvidia Container Runtime
建议参考 Nvidia Container Toolkit 安装指南
在 GPU 节点添加 Nvidia yum 库
注意:确保 GPU 节点可以访问 nvidia.github.io
当出现 "Metadata cache created." 消息时,表示添加成功。
安装 Nvidia Container Runtime
当提示 "Complete!" 时,表示安装成功。
下载集群插件
INFO
Alauda Build of NVIDIA GPU Device Plugin 集群插件可从 customer portal 获取。
如需更多信息,请联系消费者支持。
上传集群插件
有关上传集群插件的更多信息,请参阅
安装 Alauda Build of NVIDIA GPU Device Plugin
-
在您的 GPU 节点添加标签 "nvidia-device-enable=pgpu",以便调度 nvidia-device-plugin。
注意:同一节点不能同时拥有
gpu=on和nvidia-device-enable=pgpu标签 -
进入
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of NVIDIA GPU Device Plugin集群插件。 注意:部署表单参数可以保持默认,也可以在了解使用方法后进行修改。 -
验证结果。您可以在 UI 中看到“Installed”状态,或者通过以下命令检查 pod 状态:
-
最后,您可以在 ACP 创建应用时看到以资源形式存在的
Extended Resources,然后可以选择GPU core。
安装 Alauda Build of DCGM-Exporter
- 进入
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of DCGM-Exporter集群插件: 在弹出表单中设置节点标签:
- 节点标签键:nvidia-device-enable
- 节点标签值:pgpu
如果需要为 Hami 启用 dcgm-exporter,可以添加另一个标签:
- 节点标签键:gpu
- 节点标签值:on
- 验证结果。您可以在 UI 中看到“Installed”状态,或者通过以下命令检查 pod 状态: