发版日志

目录

v2.7.1

主要特性:

  • 支持 NVIDIA GPU ResourceQuota(ACP 4.2+)
  • 聚合调度失败事件
  • 支持节点锁超时配置

Bug 修复

  • 修复:从 GPU 节点移除设备插件后,仍可在该节点调度的问题。

v2.6.1

Bug 修复

  • 修复:使用 'cuMallocAsync' 分配时设备内存计数不正确
  • 修复:运行 gpu_burn 时设备内存计数不正确
  • 修复:某些场景下的段错误
  • 修复:使用多设备时利用率指标计数不正确
  • 修复:使用 vllm 且 tp>2 时初始化错误

v2.6.0

主要特性:

  • 优化调度器日志
  • 支持 enflame gcu-share
  • 支持 metax GPU 和 metax sGPU
  • Helm Chart 添加校验和注解,用于 ConfigMap 修改后重启 hami 组件
  • 支持使用 RuntimeClass 配合 nvidia 设备
  • 增加通过 net/http/pprof 包进行性能分析的支持
  • 向节点添加 nvidia gpu 拓扑评分注册表
  • 功能:vGPUmonitor 支持 MigInfo 指标

Bug 修复

  • 修复驱动 570+ 卡死问题
  • 修复 comfyUI 任务中设备内存计数不正确
  • 修复寒武纪设备分配异常
  • 修复错误日志和容器请求设备计数错误
  • 修复 vgpu-devices-allocated 注解不一致
  • 修复从节点管理器移除节点设备的问题
  • 修复动态 GPU 分区缺乏单 GPU 级别粒度的问题
  • 修复 cuMallocAsync 设备内存计数错误
  • 修复调度器崩溃问题(当 'mig' 任务误运行在 'hami-core' GPU 上)
  • 修复多进程设备内存计数问题