介绍

Resource Monitoring 是 Alauda AI 监控与运维模块的核心组件,专为跟踪和分析推理服务的资源利用指标而设计。作为全栈 MLOps 平台的一部分,它提供对基础设施资源消耗的实时可视化,使用户能够优化模型部署、防止资源瓶颈,并确保 AI 工作负载的稳定运行。Resource Monitoring 集成于 Alauda AI 的统一监控生态系统,消除了分散工具的需求,直接在您的 MLOps 工作流中提供可操作的洞察。

目录

使用限制

使用 Resource Monitoring 时,请注意以下限制:

  • 数据采集间隔

    • 最小指标抓取间隔:60 秒
    • 历史数据保留:默认 7 天
  • 依赖要求

    • 目标集群中需部署 Prometheus/VictoriaMetrics 监控栈
    • 所有工作节点必须运行 node exporter
    • GPU 节点必须运行 DCGM exporter