介绍

监控与运维介绍

监控与运维是 Alauda AI 平台的核心模块,专为 AI 推理服务的运维设计。它提供了推理服务全生命周期的全面可观测性和运维能力,通过集成的监控仪表盘实现日志和多维度指标的统一管理。作为 Alauda AI MLOps/LLMOps/GenOps 解决方案的重要组成部分,该模块帮助团队保障服务可靠性、优化资源利用率并加快故障响应速度。

该模块聚焦于两个关键的运维方面:

  • 日志:推理服务从节点 Pod 日志的实时流式传输
  • 监控:涵盖基础设施、GPU 资源和 API 流量的多维度性能仪表盘

注意:Hami 的 GPU 仪表盘仅支持 AML 版本 1.4 及以后版本。