分布式存储提供开箱即用的监控指标采集和告警通知功能。启用监控与告警功能后,您可以对存储集群、存储性能和存储组件等方面进行监控和告警,并支持配置通知策略。
直观呈现的监控数据可为运维巡检或性能调优提供决策支持,完善的告警与通知机制有助于确保存储系统的稳定运行。
提示:如果创建分布式存储时未启用监控与告警功能,则需要寻找其他方案实现存储监控与告警。例如,在运维中心手动配置监控面板和告警策略。
平台自动采集分布式存储的常用监控指标,如读写性能、CPU 和内存使用率。在 存储管理 > 分布式存储 的 监控 标签页中,您可以查看这些指标的实时监控数据。
监控存储的健康状态、物理容量使用情况以及活跃的 OSD/MON 组件数量。存储状态异常时,可查看告警原因。
从集群、存储池和 OSD 三个维度监控读写带宽和读写 IOPS,此外还可专门监控 OSD 的读写延迟。
监控 MON、OSD 等组件的 CPU 使用率和内存使用情况。
平台已启用一套默认的告警策略。当资源异常或监控数据达到告警状态时,会自动触发告警。预设策略满足组件及集群状态告警、设备容量告警、用户数据告警等常见运维需求。
为及时接收告警,建议您在运维中心配置通知策略:通过邮件、短信等方式将告警信息发送给相关人员,提醒其采取必要措施解决问题或防范故障。点击 告警配置 可跳转至运维中心完成操作,详见 Create Alert Strategies。
当监控到存储集群处于 Warning 状态时,表示已触发告警,相关异常可能导致故障。请及时查看 实时告警 中的详情,依据原因定位并排查故障。
当监控到存储集群处于 Failure 状态时,表示存储集群无法正常运行。请立即定位问题并进行故障排查。
下表说明了预设策略使用的告警级别含义,可作为您建立告警处理原则的参考。
| 告警级别 | 含义 |
|---|---|
| 灾难 | 告警规则对应的资源发生故障,导致平台服务中断、数据丢失,影响严重。 |
| 严重 | 告警规则对应的资源存在已知问题,可能导致平台功能故障,影响服务的正常运行。 |
| 警告 | 告警规则对应的资源存在运行风险,若不及时处理,可能影响服务的正常运行。 |
告警历史 记录所有已触发且无需再处理的告警。在利用告警历史进行故障复盘时,为有效达到总结经验的目的,您可能需要回答以下问题。
事件发生时的具体异常情况是什么。
是否存在某个告警在告警列表中反复出现的规律,是否可以在下次发生前进行预防。
时间线上是否显示某段时间内告警激增;是否由不可抗力或操作失误引起,是否需要调整运维方案。