割接時路由配置錯誤,導致全網癱瘓

2021.10.28

1026日,KT官網以CEO的名義發布了公開致歉信,並對事故原因進行了確認。儘管KT已公佈故障原因,但並未進行詳細解釋,仍然給業界留下了不少謎團...

 

當地時間202110251120分開始,韓國運營商KT的整個有線和無線互聯網服務在全國范圍內發生中斷,導致其所有客戶在大約一個小時內無法連接互聯網和使用電話服務。

 

同時,因KT整網服務中斷,還並發導致了韓國另外兩家運營商SKTLG U+的網絡擁塞。

 

可以說,在這一個小時內,韓國通信界遭遇了“至暗時刻”。

 

1026日,KT官網以CEO的名義發布了公開致歉信,並對事故原因進行了確認。

 

信中表示,對於引起這起重大網絡事故的原因,最初估計是因外部DDoS攻擊導致,但最終確認原因為:在更換路由器以升級網絡的時候,因網絡路由設置錯誤導致。

 

路由設置錯誤,可能會導致數據流量流向不正確而引起局部節點負荷過載,從而引發全網癱瘓。

 

看起來,與前幾天日本軟銀遭遇的網絡重大故障相似,本次事故也是因割接導致。

 

儘管KT已公佈故障原因,但並未進行詳細解釋,仍然給業界留下了不少謎團...


1. 為何沒有自愈保護?

電信網絡一直以高穩定性、高可靠性著稱,早在PSTN電話網絡時代,網絡線路就設置了1+1保護或自愈保護,主用線路在發生中斷後,通常可在50ms內自動切換到備用線路,或從相反方向迂迴連通。

 

201811月,因KT位於首爾Ahyeon區中心的電信大樓發生火災,導致該地區網絡癱瘓,通信服務中斷了數天。事後,有韓國業內人士質疑,這可能是因為KT的網絡拓撲設計不夠先進,設備和線路的冗餘配置和自愈保護不夠完善導致。他認為,儘管KT的骨幹匯聚網絡擁有充分的冗餘配置和自愈保護機制,但在昂貴而龐大的接入網部分,冗餘配置不夠充足,環狀自愈保護設計不夠完善,從而導致了此次火災後網絡長時間中斷。

 

但本次事故比2018年的火災事故要嚴重得多,火災事故影響範圍為一個區域,而本次事故影響範圍為全國。既然影響範圍這麼廣,可以估計,本次事故的故障點並非在網絡接入層,而是在網絡骨幹核心部分,這就好比“主動脈”阻塞,導致全網的“血液”輸送不暢。


那問題是,難道KT的核心網絡也缺乏完善的自愈保護機制?這顯然是不太可能的。那是不是還有其他原因?

 

2. 是否因為BGP路由配置錯誤導致?

BGP路由錯誤會阻止數據包到達其預期的IP 地址和服務器而導致服務中斷。聯想到最近 FacebookInstagramWhatsApp服務中斷均由BGP路由問題導致,一些業內人士推測可能是由於BGP配置錯誤導致。

 

3. 為什麼割接操作在白天進行?

為避免影響網絡業務,割接操作一般都在凌晨進行,這是電信業的常識。但本次事故因“更換路由器以升級網絡”引起,且事故發生時間為白天。難道有什麼不得已的原因非要在白天11點進行割接操作?還是因為凌晨割接操作後,白天才發生了故障?

 

4. 是設備問題還是人工操作失誤?

路由配置可能是自動化的,也可能是人工操作,那到底是設備的問題,還是人工操作失誤?

 

不管是設備問題,還是人為操作失誤,還是缺乏備份系統,一些韓國業內人士表示,這都反映了KT在網絡和流程管理上存在疏忽。