介绍

Kubernetes 通过 Device Plugins 提供对特殊硬件资源(如 Ascend NPU)的访问。然而,配置和管理拥有这些硬件资源的节点需要多个软件组件(如驱动程序、容器运行时或其他库)。这些组件的安装过程复杂、困难且容易出错。NPU operator 利用 Kubernetes 中的 Operator Framework 自动管理配置 Ascend 设备所需的所有软件组件。这些组件包括支持集群整个运行过程的 Ascend 驱动和固件,以及支持作业调度、运维监控和故障恢复等集群操作的 MindCluster 设备插件。通过安装相应组件,您可以管理 NPU 资源,优化工作负载调度,并将训练和推理任务容器化,从而使 AI 作业能够作为容器部署并运行在 NPU 设备上。

更多详情,请参见 NPU Operator