超售比

⚠️ 此功能仍处于实验阶段。请谨慎使用。

了解 Hami vGPU 中的超售比

Hami 支持为 vGPU 计算核心内存配置全局超售比。 vGPU 超售比的目的在于提高 GPU 利用率,而不是增加单个任务的资源分配。 vGPU 超售比纯粹是一个逻辑概念,仅由 hami-scheduler 强制执行。

关键概念

  • NVIDIA Device Core Scaling:适用于 GPU 计算核心的超售比。
  • NVIDIA Device Memory Scaling:适用于 GPU 内存的超售比。

核心能力

  • 提高 GPU 利用率,使更多工作负载能够共享一张 GPU 卡。

配置超售比

  1. 前往 管理员Marketplace集群插件
  2. 切换到目标集群。
  3. 在部署或升级 Alauda Build of Hami 集群插件时,更新参数 NVIDIA Device Core ScalingNVIDIA Device Memory Scaling

注意事项

  1. vGPU 计算核心超售比

    • 当 GPU 核心的超售比大于 1 时,多个工作负载可能会请求超过 GPU 计算能力 100% 的资源。
    • 如果所有工作负载都处于满负载运行状态,它们将平均共享物理 GPU 计算资源(最多按各自请求的份额分配)。因此,与使用独占 GPU 相比,每个工作负载的运行速度可能更慢。
    • 如果某些工作负载处于空闲状态,活跃工作负载可以利用释放出来的容量。

    示例

    • 核心超售比 = 2 → 一张 GPU 卡可提供逻辑上 200% 的可分配核心。
    • 四个 pod 请求:Pod A = 80%,Pod B = 60%,Pod C = 40%,Pod D = 20%。
    • 场景:
      • 如果所有 pod 都处于忙碌状态,Pod D 获得其请求的 20%,而 Pods A–C 争夺剩余的 80%(每个约 26.7%)。
      • 如果只有 Pod A 处于活跃状态,它可以利用最多 80% 的核心。
  2. vGPU 内存超售比

    • 启用内存超售比后,工作负载的总请求量可能超过物理 GPU 内存容量。
    • 如果总请求量超过可用内存,并且所有 pod 都尝试使用其全部分配额度,某些工作负载可能会遇到 CUDA out of memory 错误。
    • 请谨慎使用内存超售比,因为它可能直接导致应用失败。
  3. 适用范围

    • 此处描述的超售比仅适用于 NVIDIA GPU。