IPv6升級引發重大通信故障

2022.02.08
新年伊始,重大通信故障又發生了。

2022年2月1日,日本移動運營商NTT DoCoMo發生全國范圍內的重大通信故障,導致部分4G和5G用戶在長達5個小時內無法上網和進行VoLTE語音通話。 2月7日,NTT社長召開新聞發布會,就本次事故表示道歉,並公佈故障原因。

故障描述
1. 故障發生時間:
2022年2月1日早上7點30分至下午0點13分

2. 故障影響:
部分移動用戶無法使用移動互聯網服務和語音通話服務(VoLTE)

3. 故障原因:
因引入IPv6單棧模式時,服務器負荷陡增,並向終端發送控制與網絡通信的信令。

4. 影響用戶數量:
約18000名

5. 影響範圍:
全國

6. 解決措施:

針對本次IPv6單棧網絡升級失敗,為快速恢復服務,DoCoMo採取了回退到"IPv4/IPv6雙棧模式”的臨時措施。未來,該運營商表示將採取增加服務器容量以及優化設計等方式,重啟IPv6單棧模式升級。

為何引入IPv6單棧模式?
眾所周知,IPv4的地址長度為32位,約42億(2^32)個IP地址,相當於世界上平均3個人共用2個IP地址,隨著PC和智能手機的普及,目前已基本分配殆盡,發展已到極限。而IPv6的地址長度為128位,可提供的IP地址數量非常多,可"讓地球上每一粒沙子都有一個IP地址"。

如今,隨著物聯網設備增多和5G普及,接入互聯網的設備數量不斷增加,對IP地址的需求也越來越大。為此,運營商、ISP、雲商等各界均積極推動IPv6升級,以解決IPv4地址耗盡問題。
在IPv4向IPv6過渡階段,大家一般都採用IPv4/IPv6雙棧模式,即:為終端分配IPv4和IPv6兩套IP地址,如果對端是IPv4服務器,就用IPv4通信;如果對端是IPv6,就用IPv6進行通信。

然而,在雙棧模式下,要求移動網絡中的所有設備都支持IPv4/IPv6兩套協議棧,存在升級週期慢、維護成本高等問題,且無法根本解決IPv4地址短缺問題。

在此背景下,為了最大限度地提升IPv6利用率,DoCoMo提出在2022年春季在移動網絡中引入IPv6單棧模式。
IPv6單棧,也叫純IPv6或者IPv6-only,即:在移動數據通信中僅為終端分配IPv6地址。

不過,由於IPv6協議和IPv4協議是不兼容的,如上圖所示,在升級為IPv6單棧的移動網絡後,網絡僅為終端分配IPv6地址,如果終端訪問的目標服務器仍然為IPv4,需通過DoCoMo移動網絡中的服務器或交換機設備進行地址轉換處理,將IPv6地址轉換為IPv4,才能實現終端訪問只有IPv4地址的目標節點。

對此,DoCoMo採用了DNS64/NAT64和464XLAT兩種IP地址轉換方法,前者可解決Native IPv6用戶連接IPv4服務器的問題,後者允許終端上的IPv4-Only應用在IPv6單棧網絡上進行通信。

根據DoCoMo官方通報,本次通信故障正是因為其在移動網絡中引入“IPv6單棧”模式,導致服務器負荷增加,並向終端發送控制與網絡通信的信令,從而造成部分移動用戶無法接入ISP(sp-mode)和IMS(VoLTE),無法進行數據通信和語音通話。隨後,該運營商採取了回退到"IPv4/IPv6雙棧模式”的緊急措施,約在5個小時後恢復正常。