探针管理
目录
功能概述
平台的探针功能基于 Blackbox Exporter 实现,允许用户通过 ICMP、TCP 或 HTTP 方式对网络进行探测,快速定位平台上发生的故障。
与依赖平台已有各种监控指标的白盒监控系统不同,黑盒监控关注的是结果。当白盒监控无法覆盖影响服务可用性的所有因素时,黑盒监控能够快速发现故障并基于故障发出告警。例如,当某个 API 接口异常时,黑盒监控能够及时将此类问题暴露给用户。
探针功能不支持在内核版本 3.10 及以下的节点上使用 ICMP 探测 IPv6 地址。如需使用此场景,请将节点内核版本升级至 3.11 及以上。
黑盒监控
创建黑盒监控项时,可选择 ICMP、TCP 或 HTTP 探测方式,周期性地探测指定的目标地址。
前提条件
监控组件需已安装在集群中,且监控组件运行正常。
操作流程
-
在左侧导航栏点击 运维中心 > 监控 > 黑盒监控。
提示:黑盒监控为集群级功能,点击顶部导航栏可切换集群。
-
点击 创建黑盒监控项。
-
按照以下说明配置相关参数。
-
点击 创建。
创建成功后,可在列表页实时查看最新探测结果,并基于黑盒监控项创建告警策略。当检测到故障时,系统会自动触发告警,通知相关人员进行处理。
黑盒监控项创建成功后,系统需要约 5 分钟时间同步配置。同步期间不会进行探测,且无法查看探测结果。
黑盒告警
前提条件
-
监控组件需已安装在集群中,且监控组件运行正常。
-
黑盒监控项已成功创建,且系统已完成配置同步,黑盒监控页面可见探测结果。
操作流程
-
在左侧导航栏点击 运维中心 > 告警 > 告警策略。
提示:告警策略为集群级功能,点击顶部导航栏可切换集群。请确保切换至刚配置黑盒监控项的集群。
-
点击 创建告警策略。
-
按照以下说明配置相关参数,更多参数信息请参考 创建告警策略。
-
告警类型:请选择 资源告警。
-
资源类型:请选择 集群。
-
点击 添加告警规则。
-
告警类型:请选择 黑盒告警。
-
黑盒监控项:请选择目标黑盒监控项。
-
指标名称:请选择希望监控并告警的指标。平台当前支持的指标为 Connectivity 和 HTTP Status Code。
-
Connectivity:该指标可用于所有黑盒监控项,触发条件为 “!= 1” 表示黑盒监控项的目标地址不可达。
-
HTTP Status Code:该指标仅在所选黑盒监控项的探测方式为 HTTP 时可选。触发条件可输入三位正整数,例如条件设置为 “> 299”,表示响应码为 3XX、4XX 或 5XX 时触发告警。
-
-
通知策略:请选择预先配置的通知策略。
-
点击 添加。
-
- 点击 创建。提交告警策略后,可在告警策略列表中查看该策略。
自定义 BlackboxExporter 监控模块
您还可以通过向 BlackboxExporter 配置文件中添加自定义监控模块,增强黑盒监控的功能。例如,向配置文件添加 http_post_2xx 模块后,当黑盒监控的探测方式设置为 HTTP 时,即可探测 POST 请求方法的状态。
黑盒监控的配置文件位于集群中 Prometheus 组件安装的命名空间内,默认名称为 cpaas-monitor-prometheus-blackbox-exporter,可根据实际名称进行修改。
该配置文件为与命名空间相关的 ConfigMap 资源,可通过平台管理功能 集群管理 > 资源管理 快速查看和更新。
操作流程
-
通过向配置文件的 modules 键添加自定义监控模块,更新黑盒监控配置文件。
以添加 http_post_2xx 模块为例:
黑盒监控配置文件的完整 YAML 示例,请参考 参考信息。
-
通过以下任一方式使配置生效。
-
删除 Blackbox Exporter 组件 cpaas-monitor-prometheus-blackbox-exporter 的 Pod,重启组件。
-
执行以下命令调用 reload API,刷新配置文件:
-
通过 CLI 创建黑盒监控项和告警
前提条件
-
已配置通知策略(若需告警自动通知)。
-
目标集群已安装监控组件。
操作流程
-
新建 YAML 配置文件,命名为
example-probe.yaml。 -
在 YAML 文件中添加 PrometheusRule 资源并提交。以下示例创建名为
prometheus-liveness的新告警策略: -
新建 YAML 配置文件,命名为
example-alerting-rule.yaml。 -
在 YAML 文件中添加 PrometheusRule 资源并提交。以下示例创建名为
policy的新告警策略:
参考信息
黑盒监控配置文件的完整 YAML 示例如下: