上周公司官网突然打不开,监控告警满屏飘红,运维小张一边重启交换机一边骂娘——结果发现是隔壁部门新上的测试脚本误把生产网段当靶机扫了三次。这种事真不稀罕,很多“突发网络事件”背后,缺的不是技术,而是清晰的处理流程和风险兜底动作。
别一上来就敲命令
先确认三件事:
• 是单点故障(比如某台服务器连不上),还是大面积异常(整个办公网掉线)?
• 影响范围有多大?哪些业务停了?用户报错是超时、白屏,还是直接连不上IP?
• 有没有人在同一时间做了变更?比如刚升级了防火墙策略、插了新网线、或部署了新服务?
拿最常见的“内网无法上网”来说,别急着 ping 网关。先问前台小妹:“你们是全部打不开,还是只有微信网页版挂了?”——如果只有 HTTPS 网站异常,十有八九是 SSL 解密设备出了问题,跟网络层根本没关系。
四步走的处理流程(贴在工位上都行)
1. 隔离:立刻切断可疑源头。比如某台主机 CPU 持续100%且外连异常IP,马上拔网线或关端口;又比如新上线的服务导致DNS响应延迟飙升,先回滚版本再查日志。
2. 观察:用最简单的工具盯住关键指标。不用 fancy 的仪表盘,就开三个窗口:
• tcpdump -i eth0 port 53(看DNS是否被劫持或放大)
• iftop -P tcp:80(揪出偷偷发包的进程)
• netstat -ant | grep :443 | wc -l(检查HTTPS连接数是否暴涨)
3. 验证:每做一步操作,必须验证效果。改完防火墙规则后,别只看“配置已保存”,要从受影响终端实际访问一次测试页,抓包确认 SYN 包真发出去了、ACK 也回来了。
4. 记录:不是写汇报材料,是记给自己看的“救命笔记”。比如:
2024-06-12 14:22|财务部反馈ERP卡顿
→ 查到核心交换机CPU 92%,show proc cpu sorted top 5 显示“bfd_session”进程异常
→ shutdown bfd group finance-vlan,1分钟后恢复
→ 原因:BFD检测间隔设成10ms,链路抖动触发频繁重协商
风险控制,藏在细节里
很多人忽略一个铁律:**所有修复动作,必须自带“一键撤回”能力**。
比如调整路由策略:
• 错误做法:直接在路由器上敲 no ip route 10.1.1.0 255.255.255.0 192.168.2.1
• 正确做法:先加一条备用路由 ip route 10.1.1.0 255.255.255.0 192.168.2.2 254(管理距离调高),再删旧的;删完不通?回车就切回备用路径。
再比如批量修改DNS:
• 别全网推,先改5台测试机,用 nslookup example.com 10.10.10.10 确认解析正确、TTL没崩,再分批滚动更新。
最后提醒一句:备份配置不是存个TXT就完事。华为设备记得 save force,H3C要 write memory,而有些老Cisco得 copy running-config startup-config——少敲一个字,断网两小时。