常见问题

当 NVIDIA driver API 超时时,Hami device plugin pod 无法启动

当 NVIDIA driver API 响应很慢时(例如 nvidia-smi 也需要很长时间才能返回),Hami device plugin 会启动失败。

运行 nvidia-smi -pm enable,然后重启 Hami device plugin pod 即可解决该问题。

RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailable

当在一张 GPU 卡上运行两个推理服务时,其中一个总是会失败。
运行 nvidia-smi -i 0 -c 0,以允许所有进程访问 GPU。

hami scheduler 锁定了一个节点,且无法在其上调度 pod

这种情况会在 pod 在 bind 阶段被意外删除时发生,从而留下一个悬挂的 NodeLock。其他 pod 必须等待锁过期后才能被调度。
This PR 会在发生错误时主动清理 NodeLock,从而消除该问题。该问题已在 HAMi v2.7 及更高版本中修复。