割接失敗,導致3/4/5G全網通信故障

2021.10.18

如今的移動網絡如同水電氣一樣的基礎設施,特別是5G時代,應用到工業互聯網、煤礦、醫院等,網絡絕無小事。

 


 

日本運營商DoCoMo的一次割接替換,給該國整個網絡造成了大面積的故障。引起了大量用戶的強烈不滿,甚至於日本總務大臣不得不出來進行處理和解釋。

 

據悉,這次本來是一次簡單的升級替換,替換的設備是:存儲物聯網終端設備的用戶/位置信息的服務器,大約有20萬台物聯網終端的位置信息從舊設備遷移到新設備的過程中,出現了問題。

 

於是操作人員啟動了回退操作,重新倒回到舊設備。這一回退,恰好就是問題的關鍵:回退引發了大量物聯網終端向舊服務器重新發起位置註冊信息,一股洶湧而來的“信令風暴”快速引發了網絡擁塞,直接把3/4/5G的核心網給擠“癱瘓”了。



让人难以理解的是,这一顿“升级-割接-回退”的操作,发生在工作日下午即将下班的晚高峰。(涨姿势了,岛国割接居然不要求在夜间?)




20211014日下午5點左右開始,發生了導致DoCoMo語音通話和數據通信服務難以使用的網絡事故。

 

20211014日下午757分,該運營商採取了緊急網絡操作,故障開始逐漸恢復,但由於網絡擁塞,仍然有一些客戶無法連接網絡。

 

20211015日凌晨505分,5G4G網絡恢復正常,但部分區域的3G網絡仍然難以使用,正在努力恢復中,並告知廣大用戶,已訂閱4G套餐並顯示3G信號的用戶,可以通過重啟手機的方式來連接4G網絡,以獲得正常通信。

 

20211015日下午,NTT DoCoMo副社長在新聞發布會上表示,3G網絡恢復“無法給出明確的時間”,並解釋說前景不明朗。

 

NTT DoCoMo管理層公開道歉,對於此次事故給客戶和很多人帶來了不便,深表歉意,並表示將努力防止事故再次發生。



嗯,在島國,沒有什麼問題是鞠一躬解決不了的,如果有,就3個人一起鞠!




事故發生後,日本總務大臣在內閣會議後的記者招待會上表示:


作為關係人們日常生活的重要基礎設施,移動網絡發生了大規模故障,令人遺憾。總務省對此事非常重視,已要求NTT DoCoMo及時調查和報告事故原因和影響程度,以向廣大用戶做出充分的解釋。希望NTT DoCoMo能履行好社會責任,並採取一切可能的措施防止類似事故再次發生。


罰酒三杯,處理完畢!




啟示錄:


雖然此事發生在對面島國,但我們仍然需要從中吸取教訓。如今的移動網絡如同水電氣一樣的基礎設施,特別是5G時代,應用到工業互聯網、煤礦、醫院等,網絡絕無小事。

 

1. 升級割接絕不可能在忙時進行.

這在我國幾乎不可能,都是在深夜完成,這已經成了通信這20年來的鐵律。感謝我們的“通信夜行者”辛勤的付出。

 

2. 網絡充分的冗餘和備份機制。

網絡的狀況永遠不可預料,要保障網絡不出問題,最可靠的方式就是冗餘和備份機制,從AB面,到集群Pool,全面保障在核心網、傳輸網和接入網的冗餘機制。這勢必會增加投資,但是一個品質網絡的必需。

 

3. 核心網是重中之重。

其它故障一般影響到局部,而核心網則影響全局。除了做好冗餘和備份,更應該盡快升級網絡架構。 5G SA的核心網SBA架構,能在盡可能節省投資的情況下保障網絡的安全運行。