介绍
Resource Monitoring 是 Alauda AI 监控与运维模块的核心组件,专为跟踪和分析推理服务的资源利用指标而设计。作为全栈 MLOps 平台的一部分,它提供对基础设施资源消耗的实时可视化,使用户能够优化模型部署、防止资源瓶颈,并确保 AI 工作负载的稳定运行。Resource Monitoring 集成于 Alauda AI 的统一监控生态系统,消除了分散工具的需求,直接在您的 MLOps 工作流中提供可操作的洞察。
目录
使用限制
使用 Resource Monitoring 时,请注意以下限制:
-
数据采集间隔
- 最小指标抓取间隔:60 秒
- 历史数据保留:默认 7 天
-
依赖要求
- 目标集群中需部署 Prometheus/VictoriaMetrics 监控栈
- 所有工作节点必须运行 node exporter
- GPU 节点必须运行 DCGM exporter