常见问题
目录
当 nvidia driver API 超时时,Hami device plugin pod 无法启动。
当 Nvidia driver API 响应过慢(nvidia-smi 命令返回也很慢)时,Hami device plugin 会启动失败。
您可以运行 nvidia-smi -pm enable,然后重启 hami device plugin 的 pod 来解决此问题。
RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavaliable
当在一张 GPU 卡上运行两个推理服务时,其中一个总是失败。
您可以运行 nvidia-smi -i 0 -c 0 以允许所有进程访问该 GPU。
hami scheduler 锁定了节点,导致无法调度。
当 pod 在绑定阶段意外被删除时,会留下一个悬挂的 NodeLock。其他 pod 必须等待该锁过期后才能被调度。 此 PR 在发生错误时主动清除 NodeLock,消除了该问题。该问题将在下一个版本的 hami (2.7) 中得到解决。