发版日志

v2.6.1

Bug 修复

  • 修复:使用 'cuMallocAsync' 分配时设备内存未正确计数
  • 修复:运行 gpu_burn 时设备内存未正确计数
  • 修复:某些场景下出现的段错误
  • 修复:使用多个设备时利用率指标未正确计数
  • 修复:使用 vllm 且 tp>2 时的初始化错误

v2.6.0

主要特性:

  • 优化调度器日志
  • 支持 enflame gcu-share
  • 支持 metax GPU 和 metax sGPU
  • Helm Chart 为 ConfigMap 修改后重启 hami 组件添加 checksum 注解
  • 支持在 nvidia 设备上使用 RuntimeClass
  • 添加通过 net/http/pprof 包进行性能分析的支持
  • 向节点添加 nvidia gpu 拓扑分数注册表
  • 功能:vGPUmonitor 支持 MigInfo 指标

Bug 修复

  • 修复在驱动 570+ 中卡死的问题
  • 修复 comfyUI 任务中设备内存未正确计数
  • 修复 cambricon 设备未正确分配
  • 修复错误的日志和容器请求设备计数错误
  • 修复 vgpu-devices-allocated 注解不一致问题
  • 修复从节点管理器中移除节点设备的问题
  • 修复:动态 GPU 分区缺乏单 GPU 级别的粒度
  • 修复 cuMallocAsync 上的设备内存计数错误
  • 修复调度器在 'mig' 任务意外运行于 'hami-core' GPU 时崩溃
  • 修复多进程设备内存计数问题