监控与告警
本地存储提供开箱即用的监控指标采集和告警能力。启用平台监控组件后,可基于存储集群、存储性能和存储容量配置监控和告警,并支持配置通知策略。
直观呈现的监控数据可用于支持运维巡检或性能调优的决策,完善的告警机制则有助于确保存储系统的稳定运行。
监控
性能监控
平台默认采集本地存储常用的性能监控指标,如读写带宽、IOPS 和延迟。这些指标的实时监控数据可在 存储管理 下的 本地存储 页面中的 监控 标签页查看。平台通过图表直观展示这些指标,便于管理员清晰观察当前存储性能,快速识别潜在问题。
容量监控
由于本地存储只能使用节点本地可用的存储资源,用户在声明本地存储前必须确保节点上有足够的可用容量,避免因过度声明导致的问题。
为此,平台在本地存储的 详情 部分提供了按设备类型分类的详细容量监控。用户可以清晰查看以数值和图形形式展示的可用存储空间。如果某类设备显示可用容量不足,应先清理空间或添加磁盘设备后再使用本地存储。
告警
平台内置了一套默认的告警策略。当资源异常或监控数据达到告警阈值时,会自动触发告警。预配置的告警策略有效覆盖了常见的运维需求,包括集群健康状态和设备类型容量的告警。
配置通知
为确保告警能够及时接收,应在运维中心配置通知策略。通知可通过邮件、短信或其他方式发送给相关人员,促使其及时关注并解决问题或防止故障发生。用户可直接从运维中心界面访问通知策略设置。关于告警配置的详细说明,请参见 [Creating Alert Policies] 文档。
处理告警
-
当存储集群的健康状态变为
Alert时,管理员应立即排查。详情 部分提供排查和解决问题的信息。常见原因包括节点服务异常或特定设备类型存在问题。 -
告警 标签页触发的实时告警需要及时关注,即使存储集群当前状态显示为
Healthy。快速响应可防止问题升级为更严重的故障。以下表格列出了告警级别及其含义:
事后分析
告警历史 记录了所有已触发且当前不需立即处理的告警。事后分析时应考虑:
- 事件发生时具体观察到了哪些异常?
- 是否存在特定告警反复出现的规律?如何在未来主动预防?
- 是否在特定时间段告警激增,是否与外部因素或运维事件相关?是否需要调整运维策略?