Istio 流量指标

平台提供丰富的流量指标数据,允许用户从多个维度分析服务流量质量。

目录

前提条件

服务已注入 Sidecar,详情请参见 添加服务

快速开始

  1. 在左侧导航栏点击 监控

  2. 选择要查看监控数据的服务及时间范围。

    注意:查询时间范围受 Prometheus 监控数据的保留期限限制。例如:若监控数据最多保留 7 天,且设置的时间范围为最近 30 天,则统计数据仅覆盖 7 天。

  3. 点击相应标签页查看该服务的流量监控数据和 API 流量监控数据。

    说明:当服务网格管理多个集群,且存在多个集群中具有相同命名空间和名称(非 Dubbo 协议服务)的服务时,流量监控图表展示的是跨多个集群的服务监控数据汇总。
    使用集群流量对比图表可对比该服务在各集群中的监控数据。

服务流量监控

常规操作

  • 刷新数据:当前页面的监控统计数据在页面打开时自动刷新一次。若需再次刷新,可通过以下两种方式:

    • 手动刷新:点击页面右下角的 手动刷新数据。

    • 设置自动刷新(默认关闭):点击 设置自动刷新间隔。

  • 查看/设置图例:点击图表右上角的 展开监控图表的图例。点击图例可隐藏/显示图表中对应的曲线。

  • 大图查看监控图表:点击图表右上角的 在弹窗中查看放大且更详细的监控图表。

监控数据说明

HTTP/HTTP2/gRPC、Dubbo 协议

监控指标说明
平均响应时间查询时间范围内的平均响应时间(总响应时间/响应总次数)。
平均进出流量 RPS查询时间范围内进出流量的平均 RPS(每秒请求数)。
响应时间服务间或服务内部的响应时间,显示平均值、TP 50、TP 95、TP 99。
TP(Top Percentile)xx 表示 xx 百分比的网络请求所需的最小时长,常用于系统性能监控场景。
鼠标悬停曲线可查看某一时段的响应时间。
进出流量 RPS查询时间范围内的进出流量 RPS 及错误进出流量 RPS。
RPS = 查询时间内请求数 / 查询时长(秒)
进出流量查询时间范围内的进出请求总量,以及按 HTTP 返回码(正常/2xx、3xx、4xx、5xx)划分的流量比例。
鼠标悬停柱状图可查看各类别的流量比例。
客户端流量对比客户端指发起请求的客户端服务(下游服务),即调用当前服务(上游服务)的服务。客户端流量对比将比较并展示不同客户端调用当前服务的响应时间进流量 RPS及进流量RPS 错误率(错误 RPS/RPS)。

说明
- 未知客户端指服务网格内调用当前服务且流量未被 Sidecar 管理的客户端(HTTP 协议)集合。
- 若客户端属于当前命名空间,点击客户端名称旁的 Trace 可跳转至追踪页面。
- 当灰度发布服务存在两个版本时,显示两个版本的汇总数据。

TCP 协议

监控指标说明
进出流量查询时间范围内的进出流量字节流大小。
平均进出流量查询时间范围内进出流量的平均值(流量/时长)。
进出流量速率服务网络进出流量的字节流传输速率(字节/秒)。
TCP 连接数连接总数。
错误率 = 失败连接数 / 连接总数
成功率 = 成功连接数 / 连接总数
鼠标悬停不同颜色的柱状图可查看各类别连接数。
客户端流量对比比较服务与访问当前服务的客户端服务之间的网络进流量字节流传输速率。

API 流量监控

为保证监控系统性能,需先在平台上声明服务 API。随后,平台将在服务流量指标中区分已声明的 API 流量质量。

成功声明服务 API 后,可在 API 流量监控标签页选择该服务下的 API。

监控数据说明

提示:查看数据时,可参考常规操作刷新监控数据或隐藏图例对应数据。

  • 平均响应时间:选定时间范围内的平均响应时间(总响应时间/响应总次数)。

  • 响应时间:显示平均值、TP 50、TP 95、TP 99。支持查看单值响应时间。鼠标悬停曲线可查看某一时段的响应时间。TP xx 表示 xx 百分比的网络请求所需的最小时长,常用于系统性能监控场景。

  • 平均进流量 RPS:选定时间范围内的平均 RPS。

  • 进流量 RPS:每秒请求数,显示流量曲线。支持查看总流量 RPS,或点击选择错误流量 RPS。

  • 流量:显示选定时间范围内的访问总数、平均成功率和平均错误率。颜色代表不同 HTTP 状态码:深绿色表示成功状态(2XX),浅绿色表示重定向(3XX),橙色表示客户端请求错误(4XX),红色表示服务器错误(5XX)。平均错误率 = (4XX+5XX) / 总流量 × 100%。