过度承诺比例

⚠️ 此功能仍处于实验阶段,请谨慎使用。

理解 Hami vGPU 中的过度承诺比例

Hami 支持为 vGPU 的 计算核心内存 配置全局过度承诺比例。
vGPU 过度承诺的目的是提高 GPU 利用率,而非增加单个任务的资源分配。
vGPU 过度承诺的机制仅在 hami-scheduler 中是逻辑上的。

关键概念

  • NVIDIA Device Core Scaling:应用于 GPU 计算核心的过度承诺比例。
  • NVIDIA Device Memory Scaling:应用于 GPU 内存的过度承诺比例。

核心能力

  • 实现更高的 GPU 利用率,允许更多工作负载共享单个 GPU 卡。

配置过度承诺比例

  1. 进入 管理员Marketplace集群插件
  2. 切换到目标集群。
  3. 在部署或升级 Alauda Build of Hami 集群插件时,更新参数 NVIDIA Device Core ScalingNVIDIA Device Memory Scaling

注意事项

  1. vGPU 核心过度承诺

    • 当 GPU 核心的过度承诺比例大于 1 时,多个工作负载可能请求超过 100% 的 GPU 计算能力。
    • 如果所有工作负载都满负载运行,它们将平分物理 GPU 计算资源(最多达到其请求份额)。因此,每个工作负载的运行速度可能比使用专用 GPU 时更慢。
    • 如果部分工作负载处于空闲状态,活跃的工作负载可以利用释放的容量。

    示例

    • 核心过度承诺比例 = 2 → 一张 GPU 卡提供逻辑上的 200% 可分配核心。
    • 四个 Pod 请求:Pod A = 80%,Pod B = 60%,Pod C = 40%,Pod D = 20%。
    • 情况:
      • 如果所有 Pod 都繁忙,Pod D 获得其请求的 20%,而 Pods A–C 竞争剩余的 80%(约 26.7% 各自)。
      • 如果只有 Pod A 活跃,它可以利用最多 80% 的核心。
  2. vGPU 内存过度承诺

    • 启用内存过度承诺时,工作负载可能总请求超过物理 GPU 内存容量。
    • 如果总请求超过可用内存且所有 Pod 试图使用其全部分配,部分工作负载可能遇到 CUDA out of memory 错误。
    • 请谨慎使用内存过度承诺,因为它可能直接导致应用失败。
  3. 适用范围

    • 此处描述的过度承诺比例仅适用于 NVIDIA GPU