Alauda Build of Hami

简体中文

常见问题

目录

当 NVIDIA driver API 超时时，Hami device plugin pod 无法启动 RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailable hami scheduler 锁定了一个节点，且无法在其上调度 pod

当 NVIDIA driver API 超时时，Hami device plugin pod 无法启动

当 NVIDIA driver API 响应很慢时（例如 nvidia-smi 也需要很长时间才能返回），Hami device plugin 会启动失败。

运行 nvidia-smi -pm enable，然后重启 Hami device plugin pod 即可解决该问题。

RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailable

当在一张 GPU 卡上运行两个推理服务时，其中一个总是会失败。
运行 nvidia-smi -i 0 -c 0，以允许所有进程访问 GPU。

hami scheduler 锁定了一个节点，且无法在其上调度 pod

这种情况会在 pod 在 bind 阶段被意外删除时发生，从而留下一个悬挂的 NodeLock。其他 pod 必须等待锁过期后才能被调度。
This PR 会在发生错误时主动清理 NodeLock，从而消除该问题。该问题已在 HAMi v2.7 及更高版本中修复。