发版日志

v2.8.1

关键特性:

  • 支持华为 Ascend NPU 共享
  • 支持 NVIDIA 设备上的 CDI (Container Device Interface) 模式
  • 与 NVIDIA k8s-device-plugin v0.18.0 同步
  • 新增 hami_build_info Prometheus 指标和版本打印
  • 无需重启 pods 即可监控并热加载 TLS 证书
  • 支持 NVIDIA GPU Operator toolkit 就绪检查
  • 支持 GPUDirect RDMA copy (GDRCopy) 和 GPUDirect Storage (GDS) 配置
  • 支持用于测试环境的 mock device plugin
  • HAMi-WebUI 升级到 v1.10.0,以兼容 Hami v2.8;v1.10.0 与 Hami v2.7 和 v2.8 兼容,而 v1.5.0 与 Hami v2.8 不兼容

问题修复

  • 修复:更新 HAMi-core,以修复 vLLM 相关问题
  • 修复:配额计算错误
  • 修复:MIG 实例分配错误,调度器会分配错误的 MIG 实例
  • 修复:nvidia-mig-parted 升级到 v0.12.2,以修复安全问题
  • 修复:从 GPU 节点移除 device plugin 后,它仍可能显示出来
  • 修复:并发 map 读写错误
  • 修复:Device-NUMA 获取逻辑
  • 修复:更改 release name 或 chart name 时的 ClusterRoleBinding 错误

v2.7.1

关键特性:

  • 支持 NVIDIA GPU ResourceQuota(ACP 4.2+)
  • 聚合调度失败事件
  • 使 node 锁超时时间可配置

问题修复

  • 修复:从 GPU 节点移除 device plugin 后,它仍然可以被调度到该节点上

v2.6.1

问题修复

  • 修复:使用 'cuMallocAsync' 分配时设备内存统计不正确
  • 修复:运行 gpu_burn 时设备内存统计不正确
  • 修复:某些场景下发生段错误
  • 修复:使用多个设备时利用率指标统计不正确
  • 修复:使用 vLLM 且 tp>2 时初始化错误

v2.6.0

关键特性:

  • 优化调度器日志
  • 支持 enflame gcu-share
  • 支持 metax GPU 和 metax sGPU
  • Helm chart 新增 checksum 注解,以便在 ConfigMap 修改后重启 hami 组件
  • 支持在 nvidia devices 上使用 RuntimeClass
  • 新增通过 net/http/pprof 包进行 profiling 的支持
  • 为 node 新增 nvidia gpu topology score registry
  • Feat: vGPUmonitor 支持 MigInfo 指标

问题修复

  • 修复在 driver 570+ 中卡住的问题
  • 修复 comfyUI 任务中设备内存统计不正确
  • 修复 cambricon 设备分配不正确
  • 修复错误 log 和 container 请求设备数量错误
  • 修复 vgpu-devices-allocated 注解不一致
  • 修复从 node manager 中移除 node devices 的问题
  • 修复:动态 GPU 分区缺少单 GPU 级别粒度
  • 修复 cuMallocAsync 上的设备内存统计错误
  • 修复当 'mig' 任务意外运行在 'hami-core' GPU 上时调度器崩溃
  • 修复多进程设备内存统计