告警管理
目录
功能概述
平台的告警管理功能旨在帮助用户全面监控并及时发现系统异常。通过利用预装的系统告警和灵活的自定义告警能力,结合标准化的告警模板和分级管理机制,为运维人员提供完整的告警解决方案。
无论是平台管理员还是业务人员,都可以在各自权限范围内便捷地配置和管理告警策略,实现对平台资源的有效监控。
主要功能
- 内置系统告警策略:基于常见故障诊断思路,预设丰富的告警规则,适用于
global集群和工作负载集群。 - 自定义告警规则:支持基于多种数据源创建告警规则,包括预设监控指标、自定义监控指标、黑盒监控项、平台日志数据和平台事件数据。
- 告警模板管理:支持创建和管理标准化告警模板,便于快速应用于类似资源。
- 告警通知集成:支持通过多种渠道将告警信息推送给运维人员。
- 告警视图隔离:区分平台管理告警和业务告警,确保不同角色人员关注各自的告警信息。
- 实时告警查看:提供实时告警,集中展示当前处于告警状态的资源数量及详细告警信息。
- 告警历史查看:支持查看一段时间内的历史告警记录,方便运维人员和管理员分析近期监控告警情况。
功能优势
- 监控覆盖全面:支持对集群、节点、计算组件等多种资源类型的监控,内置丰富的系统告警策略,无需额外配置即可使用。
- 告警管理高效:通过告警模板实现标准化配置,提高运维效率;告警视图分离,便于不同角色人员快速定位相关告警。
- 问题发现及时:告警通知自动触发,确保及时发现问题,支持多渠道告警推送,实现主动规避问题。
- 权限管理严格:告警策略访问控制严格,确保告警信息安全可控。
通过 UI 创建告警策略
前提条件
- 已配置通知策略(若需配置自动告警通知)。
- 目标集群已安装监控组件(创建基于监控指标的告警策略时必需)。
- 目标集群已安装日志存储组件和日志采集组件(创建基于日志和事件的告警策略时必需)。
操作步骤
- 进入 运维中心 > 告警 > 告警策略。
- 点击 创建告警策略。
- 配置基础信息。
选择告警类型
资源告警
- 按资源类型分类的告警类型(如命名空间下的 deployment 状态)。
- 资源选择说明:
- 未选择参数时默认为“任意”,支持自动关联新添加的资源。
- 选择“全选”时,仅对当前资源生效。
- 多个命名空间时,资源名称支持正则表达式(如
cert.*)。
事件告警
- 按具体事件分类的告警类型(如 Pod 状态异常)。
- 默认选择指定资源下的所有资源,支持自动关联新添加的资源。
配置告警规则
点击 添加告警规则,根据告警类型配置以下参数:
资源告警参数
事件告警参数
其他配置
- 选择一个或多个已创建的通知策略。
- 配置告警发送间隔。
- 全局:使用平台默认配置。
- 自定义:可根据告警等级设置不同的发送间隔。
- 选择“不重复”时,仅在告警触发和恢复时发送通知。
其他说明
- 在告警规则的“更多”选项中,可以设置标签和注解。
- 标签和注解的配置请参考 Prometheus Alerting Rules Documentation。
- 注意:标签中不要使用
$value变量,可能导致告警异常。
通过 CLI 创建资源告警
前提条件
- 已配置通知策略(若需配置自动告警通知)。
- 目标集群已安装监控组件(创建基于监控指标的告警策略时必需)。
- 目标集群已安装日志存储组件和日志采集组件(创建基于日志和事件的告警策略时必需)。
操作步骤
-
新建 YAML 配置文件,命名为
example-alerting-rule.yaml。 -
在 YAML 文件中添加 PrometheusRule 资源并提交。以下示例创建了名为 policy 的新告警策略:
通过 CLI 创建事件告警
前提条件
- 已配置通知策略(若需配置自动告警通知)。
- 目标集群已安装监控组件(创建基于监控指标的告警策略时必需)。
- 目标集群已安装日志存储组件和日志采集组件(创建基于日志和事件的告警策略时必需)。
操作步骤
-
新建 YAML 配置文件,命名为
example-alerting-rule.yaml。 -
在 YAML 文件中添加 PrometheusRule 资源并提交。以下示例创建了名为 policy2 的新告警策略:
通过告警模板创建告警策略
告警模板是针对类似资源的告警规则和通知策略的组合。通过告警模板,可以轻松快速地为平台上的集群、节点或计算组件创建告警策略。
前提条件
- 已配置通知策略(若需配置自动告警通知)。
- 目标集群已安装监控组件(创建基于监控指标的告警策略时必需)。
操作步骤
创建告警模板
- 在左侧导航栏点击 运维中心 > 告警 > 告警模板。
- 点击 创建告警模板。
- 配置告警模板的基础信息。
- 在 告警规则 区域,点击 添加告警规则,根据以下参数说明添加告警规则:
- 点击 创建。
使用告警模板创建告警策略
- 在左侧导航栏点击 运维中心 > 告警 > 告警策略。 提示:可通过顶部导航栏切换目标集群。
- 点击 创建告警策略 按钮旁的展开按钮 > 模板创建告警策略。
- 配置部分参数,参考以下说明:
- 点击 创建。
设置告警静默
支持对集群、节点和计算组件的告警进行静默设置。通过对特定告警策略设置静默,可以控制该告警策略下所有规则在静默期间触发时不发送通知消息。支持永久静默和自定义时间静默。
例如:平台升级或维护时,许多资源可能出现异常状态,导致大量告警触发,运维人员在升级或维护完成前频繁收到告警通知。设置告警策略静默可以避免此类情况。
注意:静默状态持续至静默结束时间后,静默设置将自动清除。
通过 UI 设置
-
在左侧导航栏点击 运维中心 > 告警 > 告警策略。
-
点击要静默的告警策略右侧操作按钮 > 设置静默。
-
切换 告警静默 开关至开启状态。
提示:该开关控制静默设置是否生效。取消静默只需关闭开关。
-
根据以下说明配置相关参数:
提示:若未选择静默范围或资源名称,默认为 任意,表示后续的 删除/添加 资源操作将对应 删除静默/添加静默 告警策略;选择“全选”时,仅对当前选中资源范围生效,后续的 删除/添加 资源操作不做处理。
-
点击 设置。
提示:从设置静默到静默开始这段时间内,告警策略的静默状态为 静默等待,此期间策略内规则触发告警时正常发送通知;静默开始至结束期间,告警策略状态为 静默中,规则触发告警时不发送通知。
通过 CLI 设置
-
指定要设置静默的告警策略资源名称,执行以下命令:
-
按示例修改资源,添加静默注解并提交。
配置告警规则的建议
更多的告警规则并不总是更好。冗余或复杂的告警规则可能导致告警风暴,增加维护负担。建议在配置告警规则前阅读以下指导,确保自定义规则既能达到预期目的,又保持高效。
- 尽量使用最少的新规则:仅创建满足特定需求的规则。通过最少数量的规则,可以构建更易管理和集中化的监控告警体系。
- 关注症状而非原因:创建通知用户症状的规则,而非症状的根本原因。这样,当相关症状出现时,用户能收到告警,并可进一步调查触发告警的根因。此策略能显著减少所需创建的规则总数。
- 变更前规划和评估需求:首先明确哪些症状重要,以及希望用户在症状出现时采取何种行动。然后评估现有规则,判断是否可通过修改实现目标,避免为每个症状创建新规则。通过修改现有规则和谨慎创建新规则,有助于简化告警体系。
- 提供清晰的告警信息:创建告警信息时,应包含症状描述、可能原因和建议操作。信息应清晰简洁,提供排查步骤或相关信息链接,帮助用户快速评估情况并做出响应。
- 合理设置严重级别:为规则分配严重级别,指示用户在症状触发告警时应如何响应。例如,将严重级别设为 Critical,表示相关人员需立即采取行动。通过设定严重级别,帮助用户判断告警响应优先级,确保紧急问题得到及时处理。