监控指标很多,但告警不应该一开始就追求全。先覆盖用户可感知故障:接口 5xx、延迟升高、服务不可用、队列积压、磁盘满。

告警太多会让人麻木。每一条告警都应该能指向明确动作,比如扩容、回滚、排查依赖或清理磁盘。

指标看板可以丰富,告警要克制。没人处理的告警就是噪音。

好的告警不是告诉你系统有波动,而是告诉你用户体验正在变差,必须处理。

分类: 部署与可观测性 标签: 部署 可观测性 健康检查

评论

-- 评论已关闭 --

全部评论