MIG 支持
多实例 GPU(MIG)功能支持将 NVIDIA A100 等 GPU 安全地划分为多个独立的 GPU 实例,用于 CUDA 应用。例如,NVIDIA A100 支持最多七个独立的 GPU 实例。
MIG 为多个用户提供了独立的 GPU 资源,以实现 GPU 的最佳利用率。该功能特别适用于那些无法完全饱和 GPU 计算能力的工作负载,因此用户可能希望并行运行不同的工作负载以最大化利用率。
本文档概述了启用 Alauda Build of NVIDIA GPU Device Plugin 的 MIG 支持所需的操作步骤。有关技术概念、MIG 设置以及使用 NVIDIA Container Toolkit 运行带 MIG 的容器的更多详细信息,请参阅 MIG User Guide。
前提条件
- Alauda Build of GPU Device Plugin:v0.18.0+
- NVIDIA Blackwell、Hopper™ 和 Ampere GPU(参见 Supported GPUs)
使用不同 MIG 策略进行测试
none 策略
none 策略旨在保持 Alauda Build of GPU Device Plugin 的运行方式与以往相同。插件不会区分是否启用了 MIG 的 GPU,会枚举节点上的所有 GPU,并使用资源类型 nvidia.com/gpu 提供它们。
操作步骤
测试此策略时,我们检查启用和未启用 MIG 的 GPU 枚举情况,确保两种情况下都能看到 GPU。测试假设集群中单个节点上有一块 GPU。
-
验证 GPU 上未启用 MIG:
-
进入
管理员->Marketplace->集群插件页面,切换到目标集群,然后部署或更新Alauda Build of GPU Device Plugin集群插件: 在配置表单中将 MIG 策略设置为none。 -
观察节点上有 1 个 GPU 可用,资源类型为
nvidia.com/gpu: -
部署一个 Pod 使用 GPU 并运行
nvidia-smi
single 策略
single 策略旨在保持用户在 Kubernetes 中使用 GPU 的体验与以往相同。MIG 设备仍使用资源类型 nvidia.com/gpu 枚举,但该资源类型对应的属性现在映射到节点上可用的 MIG 设备,而非完整的 GPU。
操作步骤
测试此策略时,我们检查单一类型的 MIG 设备是否使用传统的 nvidia.com/gpu 资源类型进行枚举。测试假设集群中单个节点上有一块已启用 MIG 的 GPU。
-
在 GPU 上启用 MIG(需先停止所有 GPU 客户端) 在控制节点执行:
在 GPU 节点执行:
在控制节点执行:
-
在 GPU 上创建 7 个单切片 MIG 设备:
INFO以下示例针对
Nvidia A100型号。其他型号可通过执行命令nvidia-smi mig -lgip查询支持的划分类型。 例如,针对Nvidia A30型号,执行命令后:你可以运行
nvidia-smi mig -cgi 14,14,14,14 -C创建 4 个单切片 MIG 设备,或者运行nvidia-smi mig -cgi 14,14,5 -C创建 2 个单切片 MIG 设备和 1 个双切片 MIG 设备。 详情参见 Supported MIG Profiles -
进入
管理员->Marketplace->集群插件页面,切换到目标集群,然后部署或更新Alauda Build of GPU Device Plugin集群插件: 在配置表单中将 MIG 策略设置为single。 -
观察节点上有 7 个 MIG 设备可用,资源类型为
nvidia.com/gpu: -
部署 7 个 Pod,每个 Pod 使用一个 MIG 设备(然后查看它们的日志并删除)
mixed 策略
mixed 策略旨在为集群中每种可用的 MIG 设备配置枚举不同的资源类型。
操作步骤
测试此策略时,我们检查所有 MIG 设备是否使用其完全限定名称形式 nvidia.com/mig-<slice_count>g.<memory_size>gb 进行枚举。测试假设集群中单个节点上有一块已启用 MIG 的 GPU。
-
验证 GPU 上已启用 MIG 且无 MIG 设备存在:
-
在 GPU(Nvidia A100)上创建 3 个不同大小的 MIG 设备:
-
进入
管理员->Marketplace->集群插件页面,切换到目标集群,然后部署或更新Alauda Build of GPU Device Plugin集群插件: 在配置表单中将 MIG 策略设置为mixed。 -
观察节点上有 3 个 MIG 设备可用,资源类型为
nvidia.com/gpu: -
部署 3 个 Pod,每个 Pod 使用一个可用的 MIG 设备