GPU资源监控

功能概述

资源监控功能允许在容器平台中实时和历史性地跟踪各节点和容器组(Pods)内的GPU利用率和内存使用情况。该功能帮助管理员和开发人员:

  • 监控GPU性能:识别GPU资源分配中的瓶颈。
  • 排除故障:分析GPU使用趋势以调试与资源相关的问题。
  • 优化工作负载:根据数据做出决策,改善工作负载分布。

适用场景

  • 实时监控GPU密集型应用程序。
  • 对GPU利用率进行历史分析,以进行容量规划。
  • 多节点/多容器组GPU性能比较。

提供的价值

  • 增强对GPU资源消耗的可视化。
  • 通过可操作的见解提高集群效率。

核心功能

  • 节点级监控:跟踪每个节点的GPU利用率和内存使用情况。
  • 容器组级监控:监控独立容器组的GPU指标。
  • 自定义时间范围:分析最近30分钟到7天的数据。

功能优势

  • 实时可视化:具有自动刷新功能的互动仪表板。
  • 多维度过滤:按GPU类型、命名空间或容器组缩小指标范围。

节点监控

通过以下步骤监控节点级的GPU资源:

访问GPU仪表板

  1. 导航到平台管理视图
  2. 转到操作中心 → 监控 → 仪表板
  3. 切换到GPU目录

选择节点指标

  1. 选择节点监控仪表板
  2. 从下拉菜单中选择目标节点
  3. 选择时间范围:
    • 最近30分钟
    • 最近1/6/12/24小时
    • 最近2/7天
    • 自定义范围

理解指标

指标描述
GPU利用率使用的GPU计算能力百分比(0-100%)
GPU内存使用量使用的总内存与可用内存(以GiB为单位)

容器组监控

通过精细过滤分析容器组级的GPU使用情况:

访问容器组指标

  1. 导航到GPU目录下的仪表板
  2. 选择容器组监控

配置过滤器

  1. 选择GPU类型:
    • pGPU
    • GPU-Manager(vGPU)
    • MPS
  2. 选择包含GPU容器组的命名空间
  3. 选择特定容器组

关键指标

指标描述
容器组GPU利用率被选定容器组的GPU计算使用情况
容器组GPU内存被选定容器组的内存分配

时间范围选择

两个仪表板都支持灵活的时间窗口:

可用预设:
- 最近30分钟
- 最近1小时
- 最近6小时
- 最近12小时
- 最近24小时
- 最近2天
- 最近7天
- 自定义范围