GPU资源监控

功能概述

资源监控功能允许在容器平台中实时和历史性地跟踪各节点和容器组（Pods）内的GPU利用率和内存使用情况。该功能帮助管理员和开发人员：

监控GPU性能：识别GPU资源分配中的瓶颈。
排除故障：分析GPU使用趋势以调试与资源相关的问题。
优化工作负载：根据数据做出决策，改善工作负载分布。

适用场景：

实时监控GPU密集型应用程序。
对GPU利用率进行历史分析，以进行容量规划。
多节点/多容器组GPU性能比较。

提供的价值：

增强对GPU资源消耗的可视化。
通过可操作的见解提高集群效率。

核心功能

节点级监控：跟踪每个节点的GPU利用率和内存使用情况。
容器组级监控：监控独立容器组的GPU指标。
自定义时间范围：分析最近30分钟到7天的数据。

功能优势

实时可视化：具有自动刷新功能的互动仪表板。
多维度过滤：按GPU类型、命名空间或容器组缩小指标范围。

节点监控

通过以下步骤监控节点级的GPU资源：

访问GPU仪表板

导航到平台管理视图
转到操作中心 → 监控 → 仪表板
切换到GPU目录

选择节点指标

选择节点监控仪表板
从下拉菜单中选择目标节点
选择时间范围：
- 最近30分钟
- 最近1/6/12/24小时
- 最近2/7天
- 自定义范围

理解指标

指标	描述
GPU利用率	使用的GPU计算能力百分比（0-100%）
GPU内存使用量	使用的总内存与可用内存（以GiB为单位）

容器组监控

通过精细过滤分析容器组级的GPU使用情况：

访问容器组指标

导航到GPU目录下的仪表板
选择容器组监控

配置过滤器

选择GPU类型：
- pGPU
- GPU-Manager(vGPU)
- MPS
选择包含GPU容器组的命名空间
选择特定容器组

关键指标

指标	描述
容器组GPU利用率	被选定容器组的GPU计算使用情况
容器组GPU内存	被选定容器组的内存分配

时间范围选择

两个仪表板都支持灵活的时间窗口：

可用预设:
- 最近30分钟
- 最近1小时
- 最近6小时
- 最近12小时
- 最近24小时
- 最近2天
- 最近7天
- 自定义范围

#GPU资源监控

#目录

#功能概述

#核心功能

#功能优势

#节点监控

#访问GPU仪表板

#选择节点指标

#理解指标

#容器组监控

#访问容器组指标

#配置过滤器

#关键指标

#时间范围选择

GPU资源监控

目录

功能概述

核心功能

功能优势

节点监控

访问GPU仪表板

选择节点指标

理解指标

容器组监控

访问容器组指标

配置过滤器

关键指标

时间范围选择