发版日志
v2.8.1
关键特性:
- 支持华为 Ascend NPU 共享
- 支持 NVIDIA 设备上的 CDI (Container Device Interface) 模式
- 与 NVIDIA k8s-device-plugin v0.18.0 同步
- 新增
hami_build_info Prometheus 指标和版本打印
- 无需重启 pods 即可监控并热加载 TLS 证书
- 支持 NVIDIA GPU Operator toolkit 就绪检查
- 支持 GPUDirect RDMA copy (GDRCopy) 和 GPUDirect Storage (GDS) 配置
- 支持用于测试环境的 mock device plugin
- HAMi-WebUI 升级到 v1.10.0,以兼容 Hami v2.8;v1.10.0 与 Hami v2.7 和 v2.8 兼容,而 v1.5.0 与 Hami v2.8 不兼容
问题修复
- 修复:更新 HAMi-core,以修复 vLLM 相关问题
- 修复:配额计算错误
- 修复:MIG 实例分配错误,调度器会分配错误的 MIG 实例
- 修复:nvidia-mig-parted 升级到 v0.12.2,以修复安全问题
- 修复:从 GPU 节点移除 device plugin 后,它仍可能显示出来
- 修复:并发 map 读写错误
- 修复:Device-NUMA 获取逻辑
- 修复:更改 release name 或 chart name 时的 ClusterRoleBinding 错误
v2.7.1
关键特性:
- 支持 NVIDIA GPU ResourceQuota(ACP 4.2+)
- 聚合调度失败事件
- 使 node 锁超时时间可配置
问题修复
- 修复:从 GPU 节点移除 device plugin 后,它仍然可以被调度到该节点上
v2.6.1
问题修复
- 修复:使用 'cuMallocAsync' 分配时设备内存统计不正确
- 修复:运行 gpu_burn 时设备内存统计不正确
- 修复:某些场景下发生段错误
- 修复:使用多个设备时利用率指标统计不正确
- 修复:使用 vLLM 且 tp>2 时初始化错误
v2.6.0
关键特性:
- 优化调度器日志
- 支持 enflame gcu-share
- 支持 metax GPU 和 metax sGPU
- Helm chart 新增 checksum 注解,以便在 ConfigMap 修改后重启 hami 组件
- 支持在 nvidia devices 上使用 RuntimeClass
- 新增通过 net/http/pprof 包进行 profiling 的支持
- 为 node 新增 nvidia gpu topology score registry
- Feat: vGPUmonitor 支持 MigInfo 指标
问题修复
- 修复在 driver 570+ 中卡住的问题
- 修复 comfyUI 任务中设备内存统计不正确
- 修复 cambricon 设备分配不正确
- 修复错误 log 和 container 请求设备数量错误
- 修复 vgpu-devices-allocated 注解不一致
- 修复从 node manager 中移除 node devices 的问题
- 修复:动态 GPU 分区缺少单 GPU 级别粒度
- 修复 cuMallocAsync 上的设备内存统计错误
- 修复当 'mig' 任务意外运行在 'hami-core' GPU 上时调度器崩溃
- 修复多进程设备内存统计