郑州洪灾,通信网络的容灾机制,发挥作用了吗?
这两天,河南郑州等地区遭受罕见的强降雨袭击,出现了严重的洪涝灾害。
洪水造成的城市内涝,给当地居民的生命财产带来重大损失。来自现场的触目惊心的视频画面,牵动着全国人民的心。
目前,一线正在进行紧张的抢险救灾行动。我们只能默默祈祷,希望雨早点停,水早点退,灾区的损失不要进一步扩大,灾区人民的生活能尽快恢复正常。
作为通信人,小枣君在关注现场灾情的同时,特别留意了一下通信网络设施的损失情况。
根据以往的经验,遇到大灾大害,当地的通信基础设施一定会遭受损坏。而可靠的通信网络,是抢险救灾的重要保障,也是稳定一线灾民情绪的基石。
也就是说,灾害一旦发生,一线通信人必须尽快投入到通信设备抢修和应急保障的工作中。
小枣君的朋友圈里,就已经有河南的通信同行正在加班加点抢修,力求尽快恢复业务。
图片来自郑州联通
根据现场同行反馈的故障通知消息来看,这次洪灾确实造成了远超以往的危害。
郑州现场的故障通知消息
往常的普通洪灾,一般只会淹没基站和接入机房。更严重一点,也就是各区县的汇聚机房和机楼机房。这次特大降雨造成的内涝,竟然将省会城市部分骨干核心机房也淹了,而且主备机房都发生雨水倒灌。
这种情况,极为罕见。近几十年,国内应该是没有发生过。
骨干机房,运行着重要的核心网设备。而核心网设备,是整个通信网络的心脏。
核心网机房
目前来看,受影响最大的,是运营商的HLR设备。
HLR,全名是Home Location Register,归属位置寄存器。它是一种用户数据库设备,是核心网关键设备之一,存储着所有本地用户的数据信息,包括用户的基本信息、基本业务信息、补充业务信息,等等。
HLR是2G/3G时代的叫法,现在4G/5G时代,HLR已经改名叫HSS(Home Subscriber Server,归属签约用户服务器),功能和性能上有所升级。
HLR和HSS,作为用户数据库,是整个通信网络的核心。但凡出现重大网络故障,多半和它们有关。要么是数据库误删,要么是传输中断(例如光纤中断),导致HLR(HSS)链路中断。
2017年广西南宁重大网络中断故障,就是运营商HLR的80万用户数据被误删导致的。当时整网业务中断长达8小时39分,影响巨大,责任方被罚5亿元人民币。
这次郑州HLR被淹退服(通信行业术语:退出服务),影响本来也是巨大的。但是从现场情况来看,应该是容灾机制发挥了作用,所以没有造成大面积的通信中断。
首先,提醒一下河南灾区的兄弟姐妹们,最近期间手机尽量不要关机。因为手机开关机都需要联系HLR进行“登记”。
正常情况下
在HLR退服的情况下,手机开机,信令消息到不了HLR,就无法得到来自网络的身份确认,也就无法接入网络。
HLR退服情况下
一般来说,手机连入网络后,网络也会定期对手机进行“位置更新”。也就是说,每隔一段时间,网络会让手机上报状态信息。这次,在灾情发生的情况下,当地运营商可能已经在网络侧手动修改配置,延长了更新周期,避免位置更新失败。
此外,本次郑州HLR退服,运营商的异城异地备份方案也发挥了重要作用。
在本地主备HLR都受灾的情况下,运营商启用了位于邻近省份省会城市的备份HLR,临时顶替退服的本地HLR,保障业务的实现。
这基本上算是最高级别的备份了,专门针对战争、恐袭、地震等极端情况。
不同的容灾级别
在极特殊的情况下,用户通话量激增,网络中信令消息太多,超过了网络链路的负荷,网络侧可能会采取取消用户鉴权等手段,尽可能降低网络信令负荷,避免网络彻底拥塞。
本次洪灾,固网宽带接入业务的radius设备离线,就采取了取消鉴权的方法。
Radius,全名是Remote Authentication Dial In User Service,远程用户拨号认证系统。看名字就知道,也是一个对用户进行认证授权的设备。现场radius故障,采用的解决方案,就是直接关闭认证,启用拨号不认证策略,保证所有用户网络畅通。
除了HLR之外,根据现场反馈的情况,微波中继线路也有短暂影响,IPTV业务也受影响,这些都不算太麻烦。
目前,现场的通信工程师们正在进行紧张的设备抢修,相信不久之后,核心骨干网络的功能就会恢复。随着洪水的退却,各个站点机房的抢修也会紧锣密鼓地启动起来,老百姓的手机和宽带业务,会逐渐恢复正常。
最后,再次祈祷河南地区的雨早点停,洪水早点退,希望大家都平平安安的,也希望所有一线的通信工程师们能注意安全,不辱使命,抢险成功!
图片来自网络,非郑州灾区现场