监控与告警

本地存储提供开箱即用的监控指标采集和告警能力。启用平台监控组件后，可基于存储集群、存储性能和存储容量配置监控和告警，并支持配置通知策略。

直观呈现的监控数据可用于支持运维巡检或性能调优的决策，完善的告警机制则有助于确保存储系统的稳定运行。

监控

平台默认采集本地存储常用的性能监控指标，如读写带宽、IOPS 和延迟。这些指标的实时监控数据可在 存储管理 下的 本地存储 页面中的监控标签页查看。平台通过图表直观展示这些指标，便于管理员清晰观察当前存储性能，快速识别潜在问题。

由于本地存储只能使用节点本地可用的存储资源，用户在声明本地存储前必须确保节点上有足够的可用容量，避免因过度声明导致的问题。

为此，平台在本地存储的详情部分提供了按设备类型分类的详细容量监控。用户可以清晰查看以数值和图形形式展示的可用存储空间。如果某类设备显示可用容量不足，应先清理空间或添加磁盘设备后再使用本地存储。

平台内置了一套默认的告警策略。当资源异常或监控数据达到告警阈值时，会自动触发告警。预配置的告警策略有效覆盖了常见的运维需求，包括集群健康状态和设备类型容量的告警。

为确保告警能够及时接收，应在运维中心配置通知策略。通知可通过邮件、短信或其他方式发送给相关人员，促使其及时关注并解决问题或防止故障发生。用户可直接从运维中心界面访问通知策略设置。关于告警配置的详细说明，请参见 [Creating Alert Policies] 文档。

当存储集群的健康状态变为 Alert 时，管理员应立即排查。详情部分提供排查和解决问题的信息。常见原因包括节点服务异常或特定设备类型存在问题。

检查项	对应状态	原因说明
健康状态	Alert	由节点服务异常或设备类型问题引起。
服务状态	Unknown	节点处于 `notready` 状态，可能因网络故障或断电导致。
设备类型状态	Unavailable	使用的磁盘可能不是裸盘，或磁盘缺失。

告警标签页触发的实时告警需要及时关注，即使存储集群当前状态显示为 Healthy。快速响应可防止问题升级为更严重的故障。以下表格列出了告警级别及其含义：

告警级别	含义
Critical	表示存在重大问题，导致平台服务中断或数据丢失，影响严重。
Major	已知问题，可能影响平台功能和正常业务运行。
Warning	存在潜在风险，需要及时干预以避免影响正常业务运行。

告警历史 记录了所有已触发且当前不需立即处理的告警。事后分析时应考虑：