安装
目录
前提条件在线安装离线安装操作步骤下载集群插件上传集群插件安装 Alauda Build of NPU Operator验证安装监控FAQ卸载 Alauda Build of NPU Operator 时需要注意什么?前提条件
在线安装
-
ACP 版本:v4.0 或更高版本
-
具有 ACP 集群的 cluster administrator 访问权限
-
确保 NPU 节点中存在 bash 工具。否则,驱动和固件安装脚本可能无法被解析。
-
Worker Node 操作系统要求
-
运行 NPU workloads 的 worker 节点(或节点组)必须使用以下操作系统之一(Arm 架构):
openEuler 22.03 LTSUbuntu 22.04
-
仅运行 CPU workloads 的 worker 节点可以使用任意操作系统,因为 NPU operator 不会对不承载 NPU workloads 的节点进行配置。
-
-
支持的 NPU 硬件
-
节点必须使用受支持的 NPU:
Ascend 910BAscend 310P
-
有关操作系统和硬件兼容性的详细信息,请参见 MindCluster Documentation
-
-
必须安装
Alauda Build of Node Feature Discovery集群插件。
离线安装
-
离线安装除了需要满足所有在线安装前提条件外,还需要额外的准备步骤。
-
准备驱动和固件包以及 MindIO SDK 包。 下载以下软件包(如果不需要安装 MindIO,则无需下载 MindIO 包):
- 对于驱动和固件包,请在 npu-driver-installer 的 GitCode 仓库中查找
config.json文件,并通过其中提供的相应链接,基于所选版本、NPU 型号以及对应节点的 OS 架构下载软件包。 - 对于 MindIO SDK 包,请在 npu-node-provision 的 GitCode 仓库中查找
config.json文件,并通过其中提供的相应链接,基于对应节点的 NPU 型号以及 OS 架构下载 SDK 包。
- 对于驱动和固件包,请在 npu-driver-installer 的 GitCode 仓库中查找
-
将驱动和固件包的 ZIP 文件保存到执行离线安装的节点的
/tmp/driver_pkg/路径下。 -
将 MindIO 包的 ZIP 文件保存到执行离线安装的节点的
/opt/openFuyao/mindio/路径下。(如果不需要安装 MindIO,请跳过此步骤。) -
检查目标节点是否包含以下工具。
- 对于使用 Yum 作为包管理器的系统,需要安装以下包:
"jq wget unzip which net-tools pciutils gcc make kernel-devel-$(uname-r) kernel-headers-(uname-r) dkms"。 - 对于使用 apt-get 作为包管理器的系统,需要安装以下包:
"jq wget unzip debianutils net-tools pciutils gcc make dkms linux-headers-$(uname -r)"。 - 对于使用 DNF 作为包管理器的系统,需要安装以下包:
"jq wget unzip which net-tools pciutils gcc make kernel-devel-$(uname -r) kernel-headers-(uname-r) dkms"。
- 对于使用 Yum 作为包管理器的系统,需要安装以下包:
操作步骤
下载集群插件
您可以从 Customer Portal 网站上的 Marketplace 下载名为 Alauda Build of NPU Operator 和 Alauda Build of Node Feature Discovery 的应用。
注意:Volcano 集群插件目前可以暂不安装。
上传集群插件
平台提供 violet 命令行工具,用于上传从 Custom Portal Marketplace 下载的软件包。
更多详情,请参见 上传软件包。
安装 Alauda Build of NPU Operator
-
为所有 master 节点添加标签
masterselector=dls-master-node,并为所有 worker 节点添加标签workerselector=dls-worker-node。 -
进入
Administrator->Marketplace->Cluster Plugin页面,切换到目标集群,然后部署Alauda Build of NPU Operator集群插件。部署表单参数说明:
WARNING如果下表中列出的组件已经安装,请务必在部署时禁用相应按钮。
TIPAscend Operator、NodeD、ClusterD、Resilience Controller、MindIO TFT 和 MindIO ACP 默认不会部署。仅在确有需要时才进行部署。
验证
-
首先,您可以在
Alauda Build of NPU Operator集群插件页面中查看状态是否为“已安装”。 -
等待 npu-driver pod 变为 running。离线安装大约需要 10 分钟,而在线安装会快得多。
-
重启所有 NPU 节点。
-
在 NPU 节点上运行以下命令。
确保显示工作正常。
-
在 master 节点上运行以下命令。
确保
npuclusterpolicy的状态为 Ready。 -
检查业务集群控制节点上的 NPU 节点是否存在可分配的 NPU 资源。运行以下命令:
-
运行验证工作负载。 创建 spec 文件:
应用 spec:
然后在容器中运行以下命令:
确保显示工作正常。
安装监控
如果在安装 Alauda Build of NPU Operator 时部署了 NPU exporter 组件,请执行以下步骤创建监控图表。
-
在集群的 控制节点 上执行命令。
-
您可以按照 Import Dashboard 导入 Grafana dashboard JSON 文件,将其转换为用于展示的监控图表。 JSON 文件可在 ascend-npu-dashboard 中获取。
NOTEGrafana dashboard JSON 文件中的 tags 不能包含中文字符,需要手动删除。 示例:
修改后:
FAQ
卸载 Alauda Build of NPU Operator 时需要注意什么?
即使卸载了 Alauda Build of NPU Operator,驱动也可能仍然存在于主机上。 在 NPU 节点上,执行以下命令卸载驱动: