超售比
⚠️ 此功能仍处于实验阶段,请谨慎使用。
目录
理解 Hami vGPU 中的超售比
Hami 支持为 vGPU 的 计算核心 和 内存 配置全局超售比。
vGPU 超售比的目的是提升 GPU 利用率,而非增加单个任务的资源分配。
vGPU 超售比的机制仅在 hami-scheduler 中是逻辑上的。
关键概念
- NVIDIA Device Core Scaling:应用于 GPU 计算核心的超售比。
- NVIDIA Device Memory Scaling:应用于 GPU 内存的超售比。
核心能力
- 实现更高的 GPU 利用率,允许更多工作负载共享同一张 GPU 卡。
配置超售比
- 进入 管理员 → Marketplace → 集群插件。
- 切换到目标集群。
- 在部署或升级 Alauda Build of Hami 集群插件时,更新参数 NVIDIA Device Core Scaling 和 NVIDIA Device Memory Scaling。
注意事项
-
vGPU 核心超售比
- 当 GPU 核心的超售比大于 1 时,多个工作负载可能请求超过 100% 的 GPU 计算能力。
- 如果所有工作负载均满负载运行,它们将平分物理 GPU 计算资源(最多达到其请求份额)。因此,每个工作负载的运行速度可能比使用独占 GPU 时更慢。
- 如果部分工作负载处于空闲状态,活跃的工作负载可以利用释放的容量。
示例:
- 核心超售比 = 2 → 一张 GPU 卡提供逻辑上的 200% 可分配核心。
- 四个 Pod 请求:Pod A = 80%,Pod B = 60%,Pod C = 40%,Pod D = 20%。
- 场景:
- 如果所有 Pod 都忙碌,Pod D 获得其请求的 20%,而 Pods A–C 竞争剩余的 80%(约 26.7% 每个)。
- 如果只有 Pod A 活跃,它最多可利用 80% 的核心。
-
vGPU 内存超售比
- 启用内存超售比后,工作负载的总请求可能超过物理 GPU 内存容量。
- 如果总请求超过可用内存且所有 Pod 都尝试使用其全部分配,部分工作负载可能遇到
CUDA out of memory错误。 - 请谨慎使用内存超售比,因为它可能直接导致应用失败。
-
适用范围
- 此处描述的超售比仅适用于 NVIDIA GPU。