线上排障先确定影响面
线上问题发生时,第一步不是马上改代码,而是确定影响面:多少用户、哪些接口、哪个地区、从什么时候开始。
影响面决定处理优先级。全站不可用优先恢复服务,单个接口异常可以先降级或回滚局部功能。
排障顺序通常是:确认告警、查看发布和配置变更、看入口错误率、沿 request_id 查日志、再看依赖服务。
先止血,再追根因。止血不是打补丁,而是让业务恢复到可接受状态,同时保留证据继续分析。
版权申明
本文系作者 @blogger 原创发布在线上排障先确定影响面。未经许可,禁止转载。
评论
-- 评论已关闭 --
全部评论