线上问题发生时,第一步不是马上改代码,而是确定影响面:多少用户、哪些接口、哪个地区、从什么时候开始。

影响面决定处理优先级。全站不可用优先恢复服务,单个接口异常可以先降级或回滚局部功能。

排障顺序通常是:确认告警、查看发布和配置变更、看入口错误率、沿 request_id 查日志、再看依赖服务。

先止血,再追根因。止血不是打补丁,而是让业务恢复到可接受状态,同时保留证据继续分析。

分类: 部署与可观测性 标签: 错误处理 日志 可观测性

评论

-- 评论已关闭 --

全部评论