Inspection

Execute Inspection

  1. 点击左侧导航栏中的 Operation Center > Inspection > Basic Inspection

    提示:检查页面展示最近一次检查的检查数据信息。在检查过程中,可以实时查看已完成检查的资源数据。

  2. 在 Basic Inspection 页面,支持以下操作:

    • Execute Inspection:点击页面右上角的 Inspection 按钮,对平台进行检查。

    • Download Inspection Report:点击页面右上角的 Download Report 按钮,在弹出对话框中选择报告格式(PDF 和 Excel),点击下载,即可将对应格式的报告下载到本地。

      • PDF 格式的检查报告不包含资源风险详情页数据;

      • Excel 格式的检查报告包含检查的所有数据;

      • 支持同时下载两种格式的报告。

Inspection Configuration

Inspection ConfigurationDescription
Scheduled Inspection自动化任务执行时间规则,支持输入 Crontab 表达式。
提示:点击输入框展开平台预设的 Trigger Rule Templates,选择合适的模板,简单修改即可快速设置触发规则。
Inspection Record Retention保留的检查记录数量。
Email Notification选择邮件通知联系人。
注意:通知联系人必须配置了邮箱。
Inspection Report Name平台内置检查通知模板用于通知联系人的报告名称。
Inspection Configuration Items根据平台默认的证书、集群主机和 pod 检查项,修改告警阈值或禁用检查项。

Inspection Report Explanation

Most Recent Inspection

Most Recent Inspection 信息区域,可以查看最近一次检查的相关信息:

  • Inspection Time:最近一次检查的开始和结束时间。

  • Total Number of Inspection Resources:最近一次检查中被检查的资源总数(集群、节点、pod、证书)。

  • Risks:存在风险的资源数量,包括被分类为 FaultWarning 的资源。

Resource Risk Inspection

Resource Risk Inspection 页面,可以查看 global 集群、自建集群、接入集群及这些集群下所有节点、pod 和证书的风险信息概览。

点击对应资源类型(ClusterNodepodCertificate)卡片上的 Risk Details 按钮,进入该资源类型的风险详情页。在详情页中,可以查看该资源的最近一次检查信息,以及故障和告警资源列表。

  • 点击资源名称可跳转至资源详情页。

  • 点击列表中 Name 字段右侧的展开按钮,可展开故障和告警的判断条件及原因。

各资源风险状态判断标准(Fault、Warning)说明详见下表。

注意:每种资源的故障和告警判断条件有多个,资源的检查数据满足任一判断条件即视为一条风险数据。

Resource TypeInspection ScopeFault Judgment ConditionsWarning Judgment Conditions
Cluster- global cluster
- 自建集群
- 接入集群
- 集群状态为 Abnormal
- apiserver 连接异常
- 集群规模(节点数/pod数/指标)增加后,监控组件资源配置未更新;
- 日志数据量及日志采集频率增加后,日志组件资源配置未更新;
- 集群 CPU 使用率超过 60%;
- 集群内存使用率超过 60%;
- 集群 ETCD 组件中任一 pod 处于非 Running 状态;
- 集群中任一主机处于非 Ready 状态;
- 集群中任意两个节点时间差超过 40 秒;
- 集群 CPU 请求率(实际请求值/总量)超过 60%;
- 集群内存请求率(实际请求值/总量)超过 80%;
- 集群未安装监控组件;
- 集群监控组件异常;
- 集群 kube-controller-manager 组件中任一 pod 处于非 Running 状态;
- 集群 kube-scheduler 组件中任一 pod 处于非 Running 状态;
- 集群 kube-apiserver 组件中任一 pod 处于非 Running 状态。
Node- 所有控制节点
- 所有计算节点
- 节点状态为 Abnormal
- 节点上的 node-exporter 组件 pod 处于非 Running 状态;
- 节点上的 kubelet 组件 pod 处于非 Running 状态。
- 节点 inode 空闲数小于 1000;
- 节点 CPU 使用率超过 60%;
- 节点内存使用率超过 60%;
- 节点目录磁盘空间使用率超过 60%;
- 节点系统负载超过 200%,且持续时间超过 15 分钟;
- 过去一天内至少发生一次 NodeDeadlock(节点死锁)事件;
- 过去一天内至少发生一次 NodeOOM(内存溢出)事件;
- 过去一天内至少发生一次 NodeTaskHung(任务挂起)事件。
pod所有 pod- pod 状态为 Error
- pod 处于启动状态超过 5 分钟。
- pod CPU 使用率超过 80%;
- pod 内存使用率超过 80%;
- 过去 5 分钟内 pod 重启次数大于等于 1。
Certificate- Certmanager 证书
- Kubernetes 证书
证书状态为 Expired证书有效期少于 29 天。

Resource Utilization Inspection

点击 Resource Utilization Inspection 标签,进入 Resource Utilization Inspection 页面。

Resource Utilization Inspection 页面,可以查看 global 集群、接入集群和自建集群的 CPU、内存和磁盘的总量、使用量及使用率,以及平台上集群、节点、pod、项目等资源的数量。

  • Resource Usage Statistics:可查看 global、接入和自建集群的 CPU、内存和磁盘的总量及总使用率。

  • Platform Resource Quantity:可查看平台上运行的资源数量。