常见问题
目录
当 NVIDIA driver API 超时时,Hami device plugin pod 无法启动RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailablehami scheduler 锁定了一个节点,且无法在其上调度 pod当 NVIDIA driver API 超时时,Hami device plugin pod 无法启动
当 NVIDIA driver API 响应很慢时(例如 nvidia-smi 也需要很长时间才能返回),Hami device plugin 会启动失败。
运行 nvidia-smi -pm enable,然后重启 Hami device plugin pod 即可解决该问题。
RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailable
当在一张 GPU 卡上运行两个推理服务时,其中一个总是会失败。
运行 nvidia-smi -i 0 -c 0,以允许所有进程访问 GPU。
hami scheduler 锁定了一个节点,且无法在其上调度 pod
这种情况会在 pod 在 bind 阶段被意外删除时发生,从而留下一个悬挂的 NodeLock。其他 pod 必须等待锁过期后才能被调度。
This PR 会在发生错误时主动清理 NodeLock,从而消除该问题。该问题已在 HAMi v2.7 及更高版本中修复。