安装
目录
前提条件操作步骤在您的 gpu 节点安装 Nvidia 驱动安装 Nvidia Container Runtime在 GPU 节点添加 Nvidia yum 库安装 Nvidia Container Runtime下载集群插件上传集群插件安装 Alauda Build of Hami安装 Alauda Build of DCGM-Exporter安装监控安装 ACP MonitorDashboard(可选)安装 Alauda build of Hami-WebUI(可选)前提条件
- 对您的 ACP 集群具有集群管理员权限
- Kubernetes 版本:v1.16+
- CUDA 版本:v10.2+
- NvidiaDriver:Hami 中为 v440+,DCGM-exporter 中为 v450+
- ACP 版本:v3.18.2,v4.0,v4.1
操作步骤
在您的 gpu 节点安装 Nvidia 驱动
建议参考 Nvidia 官方网站安装指南
安装 Nvidia Container Runtime
建议参考 Nvidia Container Toolkit 安装指南
在 GPU 节点添加 Nvidia yum 库
注意:确保 GPU 节点可以访问 nvidia.github.io
当出现 "Metadata cache created." 消息时,表示添加成功。
安装 Nvidia Container Runtime
当出现 "Complete!" 提示时,表示安装成功。
下载集群插件
Alauda Build of Hami、Alauda Build of DCGM-Exporter 和(可选)Alauda Build of Hami-WebUI 集群插件可从 Customer Portal 获取。
如需更多信息,请联系消费者支持。
注意:部署在 global 集群中的版本为 v4.2.3-413 的 Alauda Build of DCGM-Exporter 可能导致组件持续重装。版本 v4.2.3-413-1 解决了此问题,请务必使用该版本。
上传集群插件
有关上传集群插件的更多信息,请参见 上传集群插件
安装 Alauda Build of Hami
-
在您的 GPU 节点添加标签 "gpu=on",以便 Hami 调度。
-
进入
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of Hami集群插件。 注意:部署表单参数可保持默认或在了解用法后进行修改。 -
验证结果。您可以在 UI 中看到状态为 "Installed",或者检查 pod 状态:
-
创建定义扩展资源的 ConfigMaps,可用于在 ACP 上设置扩展资源。在您的 gpu 集群中运行以下脚本:
点击展开代码
然后,您在 ACP 业务视图创建应用时的资源配置页面中,可以从扩展资源类型下拉框中看到 Hami,并可使用它。
安装 Alauda Build of DCGM-Exporter
-
进入
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of DCGM-Exporter集群插件: 在弹出表单中设置节点标签:- 节点标签键:gpu
- 节点标签值:on
如果需要为 pgpu 启用 dcgm-exporter,可以添加另一个标签:
- 节点标签键:nvidia-device-enable
- 节点标签值:pgpu
-
验证结果。您可以在 UI 中看到状态为 "Installed",或者检查 pod 状态:
安装监控
您可以使用 ACP MonitorDashboard 或 Alauda build of Hami-WebUI
安装 ACP MonitorDashboard(可选)
为 ACP 监控面板创建 HAMi GPU 监控的 ACP MonitorDashboard 资源。
将 hami-vgpu-metrics-dashboard-v1.0.2.yaml 文件保存到业务集群,并执行命令:kubectl apply -f hami-vgpu-metrics-dashboard-v1.0.2.yaml
安装 Alauda build of Hami-WebUI(可选)
- 进入
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of Hami-WebUI集群插件。 填写 Prometheus 地址和 Prometheus 认证。建议启用 NodePort 访问。Prometheus 地址和认证信息可通过以下脚本获取: - 验证结果。您可以在 UI 中看到状态为 "Installed",或者检查 pod 状态: