Alauda Build of Hami

简体中文

验证

本文介绍如何验证已安装的 Alauda 版本的 Hami 及相关监控是否有效。

目录

验证 Hami 验证 MonitorDashboard 验证 Hami-WebUI

验证 Hami

在业务集群的控制节点上检查 GPU 节点是否有可分配的 GPU 资源。运行以下命令：

kubectl get node  ${nodeName} -o=jsonpath='{.status.allocatable}'
# 输出包含: "nvidia.com/gpualloc":"10"（具体数值取决于 GPU 卡数量和安装参数）

部署一个 GPU 示例实例。检查是否有任何与 GPU 相关的资源消耗。在业务集群的 GPU 节点上运行以下命令：
nvidia-smi pmon -s u -d 1

如果 sm 和 mem 两项均有数据，则 GPU 已准备就绪。您可以开始在 GPU 节点上开发 GPU 应用。注意：部署 GPU 应用时，务必配置以下必填参数：

spec:
  containers:
    - image: your-image
      imagePullPolicy: IfNotPresent
      name: gpu
      resources:
        limits:
          cpu: '2'
          memory: 4Gi
          nvidia.com/gpualloc: 1     # 请求 1 个物理 GPU（必填）
          nvidia.com/gpucores: "50"  # 请求每个 GPU 50% 的计算资源（可选）
          nvidia.com/gpumem: 8000    # 请求每个 GPU 8000MB 的显存（可选）

验证 MonitorDashboard

在 HAMi vgpu 服务运行一段时间后，进入 Administrator -> Operations Center -> Monitor -> Dashboards 页面，切换到 Hami 下的 HAMi GPU Monitoring 面板。您将看到相关的图表数据。

验证 Hami-WebUI

在 HAMi-WebUI 组件运行一段时间后，通过浏览器访问 http://{业务集群节点 IP}:NodePort。