跳到主要内容

告警规则

在「告警管理 → 告警规则」以图形界面配置规则,常见场景无需写 PromQL(也支持自定义)。

警告

阈值与通知策略建议由运维人员负责——不合理的配置会误报或漏报,建议先在测试环境验证再上生产。

告警规则

监控类型

规则页按类型分 Tab,中间件类型仅在对应数据源启用后出现:

Tab监控内容出现条件
基础资源主机 / 中间件的 CPU、内存、磁盘等指标,支持自定义 PromQL始终
端口TCP 端口连通性探测始终
SSLHTTPS 证书有效期始终
MySQL连接数 / 慢查询等专项启用 MySQL 数据源
MongoDB连接数 / 复制延迟等专项启用 MongoDB 数据源
Kafka 堆积消费组 Lag 积压启用 Kafka 数据源
Kafka 重平衡消费组频繁重平衡启用 Kafka 数据源

新建规则

点「新建任务」,按提示填写:

字段说明
任务名称唯一、可读,如 生产主机 CPU 过高
数据源要监控的目标实例
指标从内置指标选,或选「自定义 PromQL」直接写表达式(可预览结果)
告警阈值运算符 + 阈值,如 > 80
检查频率多久检查一次
持续时间连续超阈多久才进入告警,过滤瞬时抖动
通知渠道绑定通知渠道;不绑定则只在平台内记录

状态流转

内置降噪状态机,只在状态变化时通知,同一告警持续触发不重复轰炸:

正常 ──超阈──▶ 预警(Pending) ──满足持续时间──▶ 告警(Firing) ──恢复──▶ 恢复(Recovered)
状态含义
预警 Pending已超阈,未满足持续时间
告警 Firing超阈且满足持续时间,已推送通知
恢复 Recovered从告警恢复正常,推送恢复通知
已暂停规则被手动暂停,不再调度

常用操作

  • 立即检查:跳过等待,马上跑一次。
  • 暂停 / 启用:计划维护时临时停调度(取代旧版「告警静默」)。
  • 实例明细:看规则匹配到的各实例当前值;支持按实例静默,只屏蔽个别实例,规则整体照跑。
  • 告警历史:看该规则触发记录,全局视图见告警历史