

嘿,兄弟们!
很多小白拿着HCIE证书出去,本以为是排障大神,结果碰到实际问题照样懵——BGP路由收不到,翻了半天手册还是找不到原因;
OSPF邻接建不上,敲了一堆display命令越看越乱,最后还得求老工程师搭救。
其实排障不用死磕理论,今天分享4个实操技巧,新手也能快准狠解决问题!
今日文章阅读福利:《网工入门指南》
扫添加小助理微信,备注【入门】,即可获取。
一、别一上来就查细节,先看基础状态
好多新手排障爱钻牛角尖,比如BGP路由学不到,上来就查路由策略,结果是邻居都没建起来。
正确的顺序应该是“从外到内”:先ping对端IP看链路通不通,再查协议状态(比如display bgp peer),最后才看细节配置。
之前处理过一个MPLS VPN故障,客户喊着路由丢了,我先看PE和CE的BGP邻居状态是Idle,查了下原来是ACL把BGP报文过滤了——要是一上来就查RT值,估计得折腾半天。
记住,基础状态不对,后面全白搭。
二、找个正常设备当参照,差异点就是病根
碰到复杂故障,别自己瞎琢磨,找个正常的同类设备对比配置和状态。
之前数据中心有台交换机OSPF总是Down,我把它和旁边正常的交换机对比display ospf interface,发现故障机的Hello时间是10秒,正常机是30秒,改完立马恢复。
尤其是批量部署的设备,配置大多一致,差异点往往藏着答案。
比如同型号路由器,有的能收到BGP路由有的收不到,对比下AS号、邻居配置,大概率能找到问题——这招比对着手册一条一条核对快多了。
三、HCIE也常踩,提前避开省时间
有些故障天天见,记牢坑点比背命令管用。
比如OSPF邻接建不上,80%是这几个问题:Router ID冲突、区域ID不一致、接口没在network范围内。
之前带过个新人,HCIE刚过,处理BGP故障时查了半天,结果是忘了配next-hop-local——这种高频坑点,记在脑子里,排障时先排查,能省一半时间。平时把自己踩过的坑记个小本本,比啥都管用。
四、别光靠命令行,仿真+抓包效率翻倍
别瞧不起工具,eNSP仿真和Wireshark抓包能解决80%的疑难杂症。
之前碰到个奇怪的OSPF故障,真机上查不出原因,我在eNSP里搭了个相同的拓扑,把配置导进去,很快就发现是LSA老化时间配置错误。
抓包更是神器,比如怀疑BGP报文丢包,用Wireshark一看就知道是中间设备过滤了,还是对端没发送。
之前有个客户的IPsec VPN不通,抓包发现IKE协商报文过不去,顺着查是防火墙ACL没放通,5分钟就解决了——比在真机上瞎敲命令快多了。