告警规则
在「告警管理 → 告警规则」以图形界面配置规则,常见场景无需写 PromQL(也支持自定义)。
警告
阈值与通知策略建议由运维人员负责——不合理的配置会误报或漏报,建议先在测试环境验证再上生产。

监控类型
规则页按类型分 Tab,中间件类型仅在对应数据源启用后出现:
| Tab | 监控内容 | 出现条件 |
|---|---|---|
| 基础资源 | 主机 / 中间件的 CPU、内存、磁盘等指标,支持自定义 PromQL | 始终 |
| 端口 | TCP 端口连通性探测 | 始终 |
| SSL | HTTPS 证书有效期 | 始终 |
| MySQL | 连接数 / 慢查询等专项 | 启用 MySQL 数据源 |
| MongoDB | 连接数 / 复制延迟等专项 | 启用 MongoDB 数据源 |
| Kafka 堆积 | 消费组 Lag 积压 | 启用 Kafka 数据源 |
| Kafka 重平衡 | 消费组频繁重平衡 | 启用 Kafka 数据源 |
新建规则
点「新建任务」,按提示填写:
| 字段 | 说明 |
|---|---|
| 任务名称 | 唯一、可读,如 生产主机 CPU 过高 |
| 数据源 | 要监控的目标实例 |
| 指标 | 从内置指标选,或选「自定义 PromQL」直接写表达式(可预览结果) |
| 告警阈值 | 运算符 + 阈值,如 > 80 |
| 检查频率 | 多久检查一次 |
| 持续时间 | 连续超阈多久才进入告警,过滤瞬时抖动 |
| 通知渠道 | 绑定通知渠道;不绑定则只在平台内记录 |
状态流转
内置降噪状态机,只在状态变化时通知,同一告警持续触发不重复轰炸:
正常 ──超阈──▶ 预警(Pending) ──满足持续时间──▶ 告警(Firing) ──恢复──▶ 恢复(Recovered)
| 状态 | 含义 |
|---|---|
| 预警 Pending | 已超阈,未满足持续时间 |
| 告警 Firing | 超阈且满足持续时间,已推送通知 |
| 恢复 Recovered | 从告警恢复正常,推送恢复通知 |
| 已暂停 | 规则被手动暂停,不再调度 |
常用操作
- 立即检查:跳过等待,马上跑一次。
- 暂停 / 启用:计划维护时临时停调度(取代旧版「告警静默」)。
- 实例明细:看规则匹配到的各实例当前值;支持按实例静默,只屏蔽个别实例,规则整体照跑。
- 告警历史:看该规则触发记录,全局视图见告警历史。