安装
目录
前提条件在线安装离线安装操作步骤下载集群插件上传集群插件安装 Alauda Build of NPU Operator验证安装监控常见问题卸载 Alauda Build of NPU Operator 时需要注意什么?前提条件
在线安装
-
ACP 版本:v4.0 或更高版本
-
具有 ACP 集群的集群管理员权限
-
确保 NPU 节点中存在 bash 工具,否则驱动和固件安装脚本可能无法解析。
-
工作节点操作系统要求
-
运行 NPU 工作负载 的工作节点(或节点组)必须使用以下操作系统之一(Arm 架构):
openEuler 22.03 LTSUbuntu 22.04
-
仅运行 CPU 工作负载 的工作节点可以使用任意操作系统,因为 NPU operator 不会对无 NPU 工作负载的节点进行配置。
-
-
支持的 NPU 硬件
-
节点必须使用支持的 NPU:
Ascend 910BAscend 310P
-
有关详细的操作系统和硬件兼容性,请参见 MindCluster Documentation
-
-
必须安装
Alauda Build of Node Feature Discovery集群插件。
离线安装
-
离线安装需要满足所有在线安装的前提条件,并额外进行准备工作。
-
准备驱动和固件包以及 MindIO SDK 包。 下载以下软件包(如果不需要安装 MindIO,则无需下载 MindIO 包):
- 驱动和固件包,请在 npu-driver-installer 的 GitCode 仓库中找到
config.json文件,根据所选版本、对应节点的 NPU 型号和操作系统架构,通过提供的对应链接下载软件包。 - MindIO SDK 包,请在 npu-node-provision 的 GitCode 仓库中找到
config.json文件,根据对应节点的 NPU 型号和操作系统架构,通过提供的对应链接下载 SDK 包。
- 驱动和固件包,请在 npu-driver-installer 的 GitCode 仓库中找到
-
将驱动和固件包的 ZIP 文件保存到执行离线安装的节点的
/tmp/driver_pkg/路径下。 -
将 MindIO 包的 ZIP 文件保存到执行离线安装的节点的
/opt/openFuyao/mindio/路径下。(如果不需要安装 MindIO,跳过此步骤。) -
检查目标节点是否包含以下工具。
- 使用 Yum 作为包管理器的系统,需要安装以下软件包:"jq wget unzip which net-tools pciutils gcc make kernel-devel-$(uname -r) kernel-headers-$(uname -r) dkms"。
- 使用 apt-get 作为包管理器的系统,需要安装以下软件包:"jq wget unzip debianutils net-tools pciutils gcc make dkms linux-headers-$(uname -r)"。
- 使用 DNF 作为包管理器的系统,需要安装以下软件包:"jq wget unzip which net-tools pciutils gcc make kernel-devel-$(uname -r) kernel-headers-$(uname -r) dkms"。
操作步骤
下载集群插件
您可以从 Customer Portal 网站的 Marketplace 下载名为 Alauda Build of NPU Operator 和 Alauda Build of Node Feature Discovery 的应用。
注意:Volcano 集群插件暂时可以不安装。
上传集群插件
平台提供了用于上传从 Customer Portal Marketplace 下载的软件包的 violet 命令行工具。
详情请参见 Upload Packages。
安装 Alauda Build of NPU Operator
-
给所有主节点打上标签
masterselector=dls-master-node,给所有工作节点打上标签workerselector=dls-worker-node。 -
进入
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of NPU Operator集群插件。部署表单参数说明:
WARNING如果下表中列出的组件已安装,部署时务必禁用对应按钮。
TIPAscend Operator、NodeD、ClusterD、Resilience Controller、MindIO TFT 和 MindIO ACP 默认不部署,仅在明确需要时部署。
验证
-
首先,在
Alauda Build of NPU Operator集群插件页面可以看到状态为“Installed”。 -
等待 npu-driver pod 进入 Running 状态。离线安装大约需要 10 分钟,在线安装则快得多。
-
重启所有 NPU 节点。
-
在 npu 节点上运行以下命令:
确认显示正常。
-
在主节点上运行以下命令:
确认
npuclusterpolicy状态为 Ready。 -
在业务集群的控制节点上检查 NPU 节点是否有可分配的 NPU 资源。运行以下命令:
-
运行验证工作负载。
NOTE业务应用必须手动指定
runtimeClassName字段为ascend。创建 spec 文件:
应用 spec:
然后在容器内运行以下命令:
确认显示正常。
安装监控
如果安装 Alauda Build of NPU Operator 时部署了 NPU exporter 组件,执行以下步骤创建监控面板。
-
在集群的 控制节点 上执行命令。
-
您可以按照 Import Dashboard 导入 Grafana 仪表盘 JSON 文件,将其转换为监控面板进行展示。 JSON 文件可在 ascend-npu-dashboard 获取。
NOTEGrafana 仪表盘 JSON 文件中的标签不能包含中文字符,需要手动删除。 示例:
修改后:
常见问题
卸载 Alauda Build of NPU Operator 时需要注意什么?
即使卸载了 Alauda Build of NPU Operator,驱动可能仍然存在于主机上。 在 NPU 节点上执行以下命令卸载驱动: