点击左侧导航栏中的 Operation Center > Inspection > Basic Inspection。
提示:巡检页面展示最近一次巡检的巡检数据信息。巡检过程中,可实时查看已完成巡检的资源数据。
在 Basic Inspection 页面,支持以下操作:
执行巡检:点击页面右上角的 Inspection 按钮,对平台进行巡检。
下载巡检报告:点击页面右上角的 Download Report 按钮,在弹出对话框中选择报告格式(PDF 和 Excel),点击下载,即可将对应格式的报告下载到本地。
PDF 格式的巡检报告不包含资源风险详情页数据;
Excel 格式的巡检报告包含巡检的全部数据;
支持同时下载两种格式的报告。
| 巡检配置项 | 说明 |
|---|---|
| 定时巡检 | 自动任务执行时间规则,支持输入 Crontab 表达式。 提示:点击输入框展开平台预置的 触发规则模板,选择合适模板,简单修改即可快速设置触发规则。 |
| 巡检记录保留条数 | 保留的巡检记录条数。 |
| 邮件通知 | 选择邮件通知联系人。 注意:通知联系人必须配置了邮箱。 |
| 巡检报告名称 | 平台内置巡检通知模板用于通知联系人的名称。 |
| 巡检配置项 | 根据平台默认的证书、集群主机和 pod 巡检项,修改告警阈值或禁用巡检项。 |
在 最近一次巡检 信息区域,可查看最近一次巡检的相关信息:
巡检时间:最近一次巡检的开始和结束时间。
巡检资源总数:最近一次巡检中巡检的资源总数(集群、节点、pod、证书)。
风险数:存在风险的资源数量,包括被判定为 Fault 和 Warning 的资源数。
在 资源风险巡检 页面,可查看 global 集群、自建集群、接入集群及这些集群下所有节点、pod 和证书的风险信息概览。
点击对应资源类型卡片上的 风险详情 按钮(Cluster、Node、pod、Certificate),进入该资源类型的风险详情页面。详情页中可查看该资源的最近一次巡检信息,以及故障和告警资源列表。
点击资源名称可跳转至资源详情页面。
点击列表中 Name 字段右侧的展开按钮,可展开故障和告警的判断条件及原因。
各资源风险状态判断标准(Fault、Warning)说明见下表。
注意:每种资源类型的故障和告警判断条件有多个,资源巡检数据满足任一判断条件即视为一条风险数据。
| 资源类型 | 巡检范围 | 故障判断条件 | 告警判断条件 |
|---|---|---|---|
| Cluster | - global 集群 - 自建集群 - 接入集群 | - 集群状态为 Abnormal; - apiserver 连接异常 | - 集群规模(节点数/pod 数/指标数)增加后,监控组件资源配置未更新; - 日志数据量和日志采集频率增加后,日志组件资源配置未更新; - 集群 CPU 使用率超过 60%; - 集群内存使用率超过 60%; - 集群 ETCD 组件中任一 pod 处于非 Running 状态; - 集群中任一主机处于非 Ready 状态; - 集群中任意两个节点时间差超过 40 秒; - 集群 CPU 请求率(实际请求值/总量)超过 60%; - 集群内存请求率(实际请求值/总量)超过 80%; - 集群未安装监控组件; - 集群监控组件异常; - 集群 kube-controller-manager 组件中任一 pod 处于非 Running 状态; - 集群 kube-scheduler 组件中任一 pod 处于非 Running 状态; - 集群 kube-apiserver 组件中任一 pod 处于非 Running 状态。 |
| Node | - 所有控制节点 - 所有计算节点 | - 节点状态为 Abnormal; - 节点上的 node-exporter 组件 pod 处于非 Running 状态; - 节点上的 kubelet 组件 pod 处于非 Running 状态。 | - 节点 inode 空闲数少于 1000; - 节点 CPU 使用率超过 60%; - 节点内存使用率超过 60%; - 节点目录磁盘空间使用率超过 60%; - 节点系统负载超过 200%,且持续时间超过 15 分钟; - 过去一天内至少发生一次 NodeDeadlock(节点死锁)事件; - 过去一天内至少发生一次 NodeOOM(内存不足)事件; - 过去一天内至少发生一次 NodeTaskHung(任务挂起)事件; - 过去一天内至少发生一次 NodeCorruptDockerImage(Docker 镜像损坏)事件。 |
| pod | 所有 pod | - pod 状态为 Error; - pod 处于启动状态超过 5 分钟。 | - Pod CPU 使用率超过 80%; - Pod 内存使用率超过 80%; - 过去 5 分钟内 Pod 重启次数大于等于 1 次。 |
| Certificate | - Certmanager 证书 - Kubernetes 证书 | 证书状态为 Expired。 | 证书有效期少于 29 天。 |
点击 Resource Utilization Inspection 标签,进入 资源利用率巡检 页面。
在 资源利用率巡检 页面,可查看 global 集群、接入集群、自建集群的 CPU、内存、磁盘的总量、使用量及使用率,以及平台上集群、节点、pod、项目等资源数量。
资源使用统计:可查看 global、接入、自建集群的 CPU、内存、磁盘的总量及总使用率。
平台资源数量:可查看平台上运行的资源数量。