监控、指标与告警
使用平台监控图表和告警策略来观察 RabbitMQ 的资源使用情况、broker 健康状态、队列增长和流量模式。监控应回答两个不同的问题:
- 实例是否足够健康,能够接受流量?
- 负载是否能够跟上消息量和保留目标?
指标采集
平台默认会收集 RabbitMQ 指标。内置监控图表展示了最常见的 broker 和资源信号,便于进行运维检查和性能调优。
默认情况下,RabbitMQ 指标由 broker 通过端口 15692 暴露。如果启用了独立 exporter 集成(spec.exporter.enabled=true),指标也可以从 exporter 服务的端口 9419 获取。
验证 broker listener 是否存在:
验证 Service 是否暴露了预期端口:
关键指标类别
RabbitMQ 默认主要导出 broker 级别的指标。当你需要更细粒度的按队列或按 exchange 分析时,请将 broker 指标与应用指标、队列检查命令以及工作负载特定的图表结合使用。
推荐的告警信号
为以下条件创建或调整告警策略:
如何解读常见信号
告警策略指导
前往 Application Service 的 Alerts > Alert Policies 页面,为 RabbitMQ 创建告警策略。内置指标是启用基础覆盖范围最快的方式。当内置指标不足以满足需求时,请创建基于自定义 PromQL 的告警,并在生产环境依赖它们之前先进行测试。
有关配置和使用告警的更多信息,请参阅平台的 Alert Management 文档。