本地存储提供开箱即用的监控指标采集和告警能力。启用平台监控组件后,可基于存储集群、存储性能和存储容量配置监控和告警,并支持配置通知策略。
直观呈现的监控数据可用于支持运维巡检或性能调优的决策,完善的告警机制则有助于确保存储系统的稳定运行。
平台默认采集本地存储常用的性能监控指标,如读写带宽、IOPS 和延迟。这些指标的实时监控数据可在 存储管理 下的 本地存储 页面中的 监控 标签页查看。平台通过图表直观展示这些指标,便于管理员清晰观察当前存储性能,快速识别潜在问题。
由于本地存储只能使用节点本地可用的存储资源,用户在声明本地存储前必须确保节点上有足够的可用容量,避免因过度声明导致的问题。
为此,平台在本地存储的 详情 部分提供了按设备类型分类的详细容量监控。用户可以清晰查看以数值和图形形式展示的可用存储空间。如果某类设备显示可用容量不足,应先清理空间或添加磁盘设备后再使用本地存储。
平台内置了一套默认的告警策略。当资源异常或监控数据达到告警阈值时,会自动触发告警。预配置的告警策略有效覆盖了常见的运维需求,包括集群健康状态和设备类型容量的告警。
为确保告警能够及时接收,应在运维中心配置通知策略。通知可通过邮件、短信或其他方式发送给相关人员,促使其及时关注并解决问题或防止故障发生。用户可直接从运维中心界面访问通知策略设置。关于告警配置的详细说明,请参见 [Creating Alert Policies] 文档。
当存储集群的健康状态变为 Alert 时,管理员应立即排查。详情 部分提供排查和解决问题的信息。常见原因包括节点服务异常或特定设备类型存在问题。
| 检查项 | 对应状态 | 原因说明 |
|---|---|---|
| 健康状态 | Alert | 由节点服务异常或设备类型问题引起。 |
| 服务状态 | Unknown | 节点处于 notready 状态,可能因网络故障或断电导致。 |
| 设备类型状态 | Unavailable | 使用的磁盘可能不是裸盘,或磁盘缺失。 |
告警 标签页触发的实时告警需要及时关注,即使存储集群当前状态显示为 Healthy。快速响应可防止问题升级为更严重的故障。以下表格列出了告警级别及其含义:
| 告警级别 | 含义 |
|---|---|
| Critical | 表示存在重大问题,导致平台服务中断或数据丢失,影响严重。 |
| Major | 已知问题,可能影响平台功能和正常业务运行。 |
| Warning | 存在潜在风险,需要及时干预以避免影响正常业务运行。 |
告警历史 记录了所有已触发且当前不需立即处理的告警。事后分析时应考虑: