发版日志
v2.6.1
Bug 修复
- 修复:使用 'cuMallocAsync' 分配时设备内存未正确计数
- 修复:运行 gpu_burn 时设备内存未正确计数
- 修复:某些场景下出现的段错误
- 修复:使用多个设备时利用率指标未正确计数
- 修复:使用 vllm 且 tp>2 时的初始化错误
v2.6.0
主要特性:
- 优化调度器日志
- 支持 enflame gcu-share
- 支持 metax GPU 和 metax sGPU
- Helm Chart 为 ConfigMap 修改后重启 hami 组件添加 checksum 注解
- 支持在 nvidia 设备上使用 RuntimeClass
- 添加通过 net/http/pprof 包进行性能分析的支持
- 向节点添加 nvidia gpu 拓扑分数注册表
- 功能:vGPUmonitor 支持 MigInfo 指标
Bug 修复
- 修复在驱动 570+ 中卡死的问题
- 修复 comfyUI 任务中设备内存未正确计数
- 修复 cambricon 设备未正确分配
- 修复错误的日志和容器请求设备计数错误
- 修复 vgpu-devices-allocated 注解不一致问题
- 修复从节点管理器中移除节点设备的问题
- 修复:动态 GPU 分区缺乏单 GPU 级别的粒度
- 修复 cuMallocAsync 上的设备内存计数错误
- 修复调度器在 'mig' 任务意外运行于 'hami-core' GPU 时崩溃
- 修复多进程设备内存计数问题