常见问题

当 nvidia driver API 超时时,Hami device plugin pod 无法启动。

当 Nvidia driver API 响应过慢(nvidia-smi 命令返回也很慢)时,Hami device plugin 会启动失败。

您可以运行 nvidia-smi -pm enable,然后重启 hami device plugin 的 pod 来解决此问题。

RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavaliable

当在一块 GPU 卡上运行两个推理服务时,其中一个总是失败。 您可以运行 nvidia-smi -i 0 -c 0 以允许所有进程访问该 GPU。

hami scheduler 锁定节点,导致无法调度。

当 pod 在绑定阶段被意外删除时,会留下一个悬挂的 NodeLock。其他 pod 必须等待该锁过期后才能被调度。 此 PR 在发生错误时主动清除 NodeLock,消除了该问题。该问题将在下一个版本的 hami (2.7) 中解决。