告警规则先覆盖用户可感知故障
监控指标很多,但告警不应该一开始就追求全。先覆盖用户可感知故障:接口 5xx、延迟升高、服务不可用、队列积压、磁盘满。
告警太多会让人麻木。每一条告警都应该能指向明确动作,比如扩容、回滚、排查依赖或清理磁盘。
指标看板可以丰富,告警要克制。没人处理的告警就是噪音。
好的告警不是告诉你系统有波动,而是告诉你用户体验正在变差,必须处理。
版权申明
本文系作者 @blogger 原创发布在告警规则先覆盖用户可感知故障。未经许可,禁止转载。
评论
-- 评论已关闭 --
全部评论