一份重大通信故障報告,發人深省

2022.07.06
一份重大通信故障報告,發人深省


搞通信的伙伴們都知道,核心路由器位於網絡核心位置,是整個網絡的“交通樞紐”,不僅性能強悍、價格昂貴,且需時時刻刻保持穩定運行,否則,一旦出現問題,動輒可能影響全網數百萬甚至數千萬用戶。

​當地時間7月2日凌晨1點35分開始,日本運營商KDDI的移動網絡發生大規模通信故障,導致全日本範圍內無法撥打電話、無法收發短信、數據通信變慢。

此次事故影響範圍大,持續時間長,影響用戶數量達3915萬,故障一直持續到7月4日下午才基本完全恢復,給日本全社會造成了極大的不便和損失,也是KDDI有史以來遭遇的最大一次網絡系統故障。

故障發生後,KDDI高層及時召開新聞發布會,向廣大深受影響的個人和企業用戶鞠躬致歉,並表示考慮賠償損失。

那究竟是什麼原因造成了此次大規模通信故障?看完KDDI的報告後,發人深省。

故障原因一:核心路由器割接失敗

7月2日凌晨,KDDI組織工程師對連接全國移動核心網和中繼網絡的一個核心路由器進行割接,將老舊的核心路由器更換為新產品。

不幸的是,通信人最擔心的噩夢發生了——割接失敗了。在更換核心路由器的過程中,新的核心路由器出現了不明原因的故障。

圖片

搞通信的伙伴們都知道,核心路由器位於網絡核心位置,是整個網絡的“交通樞紐”,不僅性能強悍、價格昂貴,且需時時刻刻保持穩定運行,否則,一旦出現問題,動輒可能影響全網數百萬甚至數千萬用戶。

正因如此,核心路由器割接好比為活人換“心臟”,是一項極具挑戰的工作,也對要更換的新產品的成熟性、穩定性、互聯互通性等能力要求極高。

但KDDI偏偏在這項要求極其謹慎的工作上掉了鍊子,接下來的後果當然就相當嚴重了——

由於新核心路由器無法將語音流量正確路由到VoLTE交換節點,直接導致部分VoLTE語音業務中斷15分鐘。

故障原因二:信令風暴擊潰VoLTE網絡

核心路由器割接失敗,這場景簡直不敢想像,隔著屏幕都能嚇出冷汗!

怎麼辦?趕緊回退唄。KDDI的工程師們快速啟動了回退操作,於7月2日凌晨1點50分將連接重新切換回舊的核心路由器。

但更大的問題發生了。

圖片

回退後,“由於VoLTE終端每50分鐘進行一次位置註冊”,大量終端向VoLTE交換節點發起位置註冊信令,以重新連接至網絡。海量信令集中突發,很快引發VoLTE交換節點擁塞,致使大量用戶無法進行VoLTE通信。

同時,移動網絡中有一個“用戶數據庫”,負責存儲用戶的簽約數據和位置信息,由於VoLTE交換節點擁塞,“註冊在用戶數據庫的位置信息無法反映在VoLTE交換機上”,出現數據不匹配問題,也導致很多用戶無法通信和撥打電話。

针对此情况,KDDI于7月2日凌晨3:00后开始从无线侧、VoLTE核心网侧同时实施流量控制策略,以及通过断开PGW的方式减轻用户数据库负荷,以缓解网络拥塞,并在PGW采用“会话重置”措施解决用户数据库中的数据不一致问题。

圖片

因为实施流量控制,接下来导致了全国范围内的数据通信和语音通话难以连接。

接下来,KDDI开始紧张的网络恢复工作。7月3日上午11点,KDDI宣布日本西部基本完成网络修复工作。下午5点30分,日本东部基本完成。但仍然有一些用户难以进行数据通信和语音通话。

圖片

直到7月4日下午4点,距离故障发生62个小时后,KDDI表示已在全国范围内基本恢复。

发人深省

类似的重大网络故障在日本并不是头一次。

2021年10月14日,日本另一家运营商NTT DoCoMo的移动网络也发生过全国性的重大通信事故,导致大量手机用户无法进行通话和数据通信。

此次事故同样因为割接失败后回退操作,引发信令流量大爆发,导致网络大拥塞。

具体情况是,NTT DoCoMo在替换用于存储物联网终端设备的用户和位置信息的网络设备时出现了问题,然后立即启动回退操作,重新倒回到旧设备。

但这一回退操作,引发了大量物联网终端向旧设备重新发起位置注册信息,汹涌而来的“信令风暴”快速引发了网络拥塞,并波及3G/4G/5G网络的语音和数据分组核心设备,导致大量用户无法通话和数据通信。

与NTT DoCoMo不同的是,KDDI此次是因为核心路由器割接失败引起,而且故障持续时间要长很多。

但值得一提的是,KDDI似乎并非没有吸取DoCoMo的教训。

KDDI在全日本范围内拥有6个交换中心,共18个VoLTE交换节点,且交换中心内的VoLTE交换节点是相互冗余备份的。而本次因核心路由器割接导致VoLTE业务中断的只是其中一个交换中心的VoLTE交换节点。

“我们做过压力测试,因为有冗余备份,即使一个交换中心范围内的所有终端同时发起重新连接请求,也不会发生拥塞。”

KDDI表示,“但不知道什么原因,结果还是发生了拥塞,我们还没有完全搞清楚到底是哪里出了问题。”

但愿KDDI最终能彻底找出此次事故的所有原因。也希望通信业再也不要重蹈覆辙。因为,重大网络故障,这六个大字,对于通信业而言,实在太可怕了。​