關於這次通信故障,我想多說幾句…

2022.07.08
關於這次通信故障,我想多說幾句…

今天這篇文章,我想把話題放大一點,和大家深入聊聊——都2022年了,為什麼我們的通信網絡還有這麼多故障,以及,我們到底有沒有終極解決方案。

​這幾天,大家都在關注日本電信運營商KDDI的大規模通信故障。

這個故障影響很大,涉及到日本全境範圍,共3915萬用戶。而且,故障持續的時間很長,差不多花了兩天,才算基本恢復。

故障的具體原因,我看到很多公眾號都已經寫了,我就不再重複分析了。

今天這篇文章,我想把話題放大一點,和大家深入聊聊——都2022年了,為什麼我們的通信網絡還有這麼多故障,以及,我們到底有沒有終極解決方案。

圖片

通信故障:一場持續百年的博弈

故障是通信網絡的天然屬性。就像人會生病一樣,通信網絡自誕生以來,就伴隨著故障。或者說,我們就是在解決故障的過程中,才創造了通信網絡。

圖片

貝爾老爹在解決了無數故障後,才發明了電話

一百多年來,無數的通信人,都在與故障進行堅持不懈的鬥爭和博弈。他們努力研發了各種技術,採用了各種手段,和通信故障抗爭。

從宏觀上來說,抗爭的效果是顯著的。在經驗的不斷積累下,在工藝和技術的不斷進步下,通信網絡發生故障的概率在不斷下降。

年輕的讀者可能並不知道,20多年前,固定電話撥不通(有電話的家庭都不多),和停水停電一樣,是常見現象。10多年前,手機撥不通,上網上不去,也是常見現象。

圖片圖片

近十年來,這些現像變得越來越少見。偶爾發生一次,大家反而會覺得很奇怪。網絡斷了,很多人的第一反應是手機壞了,或者欠費了,趕緊重啟或充值。不是嗎?

我們現在所處的信息社會,通信網絡和水電一樣,是重要的基礎設施。我們的工作和生活,還有各行各業的運轉,都離不開通信網絡。

在這樣的前提下,通信運營商作為國企,作為網絡的建設和維護者,會始終把網絡的安全穩定放在第一位。

圖片

針對網絡穩定,工信部給運營商們設定了嚴格的考核指標。如果某省某市出現了網絡故障,一把手肯定要擔責,仕途堪憂。

運營商領導的壓力,會傳遞到員工身上,也會傳遞到設備商和外包商身上。

現在市場競爭如此激烈,一旦出事,要么就是巨額的賠款,要么就是丟掉這個省的市場份額,這是設備商和外包商無法承受的損失。

所以說,整個通信行業對於通信網絡的安全穩定,重視度肯定是足夠的。關鍵,還是能力和執行的問題。

通信網絡的弱點,究竟在哪?

首先,我要和大家說一下通信網絡的安全級別定義。

根據場景不同,通信網絡的安全分為不同等級。從低到高,分別是家庭級、企業級、電信級。

圖片圖片

通信系統的安全等級

像我們家裡用的路由器什麼的,都屬於家庭級。這種設備的安全性可靠性很低,說壞就壞,很容易導致網絡中斷。

企業級呢,就是單位裡面用的網絡設備。根據網絡規模和用戶數量,企業級設備有較高的安全性可靠性,不太容易中斷服務。

電信級的要求,就更高了。像移動、電信、聯通,它們的網絡,要為上億的用戶提供服務,絕對不允許輕易出現故障。通常來說,電信級的可靠性,要達到5個9以上的標準。

圖片

今天小棗君說的通信網絡,指的就是運營商面向公眾的公共通信網絡,既包括蜂窩移動通信網絡,也包括固網寬帶網絡。它們都屬於電信級。

蜂窩移動通信網絡和固網寬帶網絡的架構其實是類似的,主要區別在於接入網部分。

圖片

蜂窩移動通信網絡是無線接入網,接入設備是基站。而固網寬帶網絡是有線接入網,接入設備是PON設備(無源光網絡設備,包括光貓)。

我們就以蜂窩移動通信網絡為例,進行分析。

公共通信網絡,服務的是數以億級的用戶群體,所以,通常會採用金字塔級的架構,核心網為核心,傳輸網(承載網)為骨幹,接入網為四肢。

圖片

大家一眼就能看明白,這種架構,最大的弱點,就在於核心網和傳輸網(尤其是骨幹網)。

核心網是管理中樞,是網絡的心臟和大腦,一旦掛了,就整個網絡掛了。所以,核心網工程師(比如當年的我)是風險和壓力最大的崗位。

圖片

核心網機房

傳輸網(承載網)呢,是通信網絡的血管和神經。末梢還好說,壞了最多影響一小塊,但是,如果心血管和腦血管壞了,怎麼辦?那也是徹底癱瘓。

圖片

光傳輸設備

這次KDDI發生的故障,還有2021年10月DoCoMo發生的故障,以及2020年英國四大運營商的故障,2020年美國CenturyLink的故障,都和核心路由器有關。說白了,就是心腦血管出了問題,整個人(網絡)就癱了。

相比之下,接入網這邊出大問題的概率很低。個別基站“掉站”,最多影響幾百幾千人,範圍很小,投訴可控。

圖片圖片

基站設備

如果接入網出現大規模故障,那極有可能是設備商的軟件版本問題,或者硬件批次問題。這種情況的概率極低。

為了防範故障,通信人都做了些什麼?

那麼,為了保證通信網絡的安全平穩運行,防範故障的發生,我們通信人都採用了哪些辦法呢?

(1) 首先,是頂層架構設計的完善。

網絡的架構,是網絡安全之本。一個好的架構,既要考慮性能和容量,也要考慮成本,還要考慮安全和冗餘。

這裡請大家務必記住一點:通信設備作為一個複雜的產品,不管你怎麼設計或堆料,它都存在故障的可能,只是概率高低、時間早晚的問題。

對於可能出現的故障,與其嚴防死守,不如重點考慮發生故障之後,該怎麼辦。

所以,引入備份機制,是應對故障最有效的手段。

圖片

備份機制

大家都學過“概率與統計”,1個設備出現概率的故障如果是1%,那麼,兩個設備同時出故障的概率,就是1%×1%=0.01%。沒錯吧?

為了保證絕對的安全,網絡架構設計時,會採用POOL(池)組網的方式,如下圖:

圖片

好幾個設備共同組成池子(POOL),各自負責業務,如果有一個壞了,其它的立刻頂上,保證業務不受影響。

核心設備,通常有兩個或兩個以上,分別在省會城市的不同區域,物理上就離得很遠。

此外,在做網絡架構設計時,重要的設備網元通常會放在安全級別更高的核心機房。

圖片圖片

核心機房

例如,移動通信網絡裡面最最最重要的、負責存儲和管理用戶數據的HSS(就是以前的HLR,裡面有每個用戶的手機號碼、鑑權數據、業務信息等),就存放在省會城市的核心機房。同時,維護人員會定期進行數據的物理異地隔離備份。

這幾年,因為地質災害,加上戰爭或恐襲等因素考量,運營商甚至開始做異省份的備份。

例如,去年鄭州洪災,當時核心機房被淹,HLR退服,就緊急啟用了放在鄰近省份省會城市的HLR,實現業務的臨時恢復。

圖片

圖片不同的容災級別

(2) 第二個辦法,底層的主備機制。

剛才我們說的是頂層設計的冗餘機制。具體到機房、機架、單板、線纜,也都有主備的設計,可以稱之為底層的主備機制。

如果去過機房,你就會發現,機櫃上的機框,插著各種各樣的單板。而這些單板,基本上都是成對出現的。

圖片

某廠家3G設備正面外觀

也就是說,某一類型的單板,通常都會有兩塊。

網線和光纖也是一樣,你幾乎看不到單根的線纜,都是成對的。

圖片

某廠家4G設備正面外觀

這樣做的原因,就是為了互相備份。如果某塊單板壞了,那另一個單板就能繼續工作,保證業務不受影響。同時,系統會進行報警,提醒工作人員盡快更換。

電源也是一樣,電信機房所有機櫃設備,肯定都有至少兩路電源輸入。

圖片圖片

多路電源輸入(一紅一藍為一路)

除了市電以為,重要機房還會設置蓄電池、UPS、發電機等應急供電設備。

圖片圖片

​機房的蓄電池組

(3) 第三,完善的管理制度和法規。

技術永遠都不是影響網絡安全穩定的唯一要素。對通信網絡威脅最大的,其實是人,而不是技術。

對於這一點,小棗君相信每一個通信人都會有相同的感受。

在管理流程和製度方面,在工程技術規範方面,我們有過無數次血的教訓。

為什麼升級方案要反複評審?為什麼工程規範要那麼嚴格?為什麼要建立備件倉庫?為什麼割接步驟要double-check,甚至triple-check?為什麼重大操作後要安排值守?為什麼重要節假日要封網?……

這些都是前人踩雷總結下來的經驗。

圖片

對網絡故障,要時刻保持敬畏之心

除了內部管理制度和流程標準之外,針對現在經常發生的通信網絡蓄意破壞事件,國家也建立了越來越嚴格的法律法規,進行處罰。

像非法施工鏟斷光纖、蓄意破壞基站、剪斷光纖,都將受到法律的製裁。

圖片圖片

被惡意剪斷的基站饋線

通信故障背後的深層次原因

有合理的網絡架構設計,有齊備的主備機制,又有完善的製度和規範,為什麼還會發生這麼多故障?

接下來,我來說點深層次的原因。

首先第一點,估計也是大家最認同的一點,那就是通信行業的內捲環境。

這些年,惡意競爭、低價中標盛行,設備商和分包商既要搶單,又要維持利潤,只能拼命壓低成本,比如產品設計成本、用料成本、施工材料成本。更主要的是,人員工資成本。

成本不斷壓縮,勢必影響產品可靠性以及工程質量。過低的工資,導致大量經驗豐富的人才流失。分包商為了完工,只能招聘應屆生,簡單培訓(甚至沒有培訓)之後,派到現場幹活。

這些人員缺乏必要的培訓和實踐,素質水平和技術能力不足,成為很大的風險點。

有些極個別素質低的,被壓迫狠了,直接刪庫跑路,也不是沒有可能。

前些年,為了確保一線員工不被剋扣待遇,有廠商甚至和分包商簽訂合同,約束外包員工的收入底線。

除了低價競爭之外,影響網絡運行安全的另一個重要因素,是不斷增加的技術複雜度。

越先進的技術,複雜度越高,可靠性越低。隨著技術的演進,運營商的網絡規模變得越來越大,組網也越來越複雜,出現問題的概率大大增加。

通信網絡的潮汐效應是非常明顯的。閒時和忙時有時候會有十倍甚至百倍的差異。如果出現意外事件(災害等),話務量激增,更可能是千倍的差異。

運營商不可能做千倍的冗餘設計。所以,如果沒有合理的旁路設計或閾值設計,網絡出現擁塞的概率是極高的。(這幾年的幾次重大故障,都有信令流量擁塞的因素。)

目前運營商的複雜組網,自己都沒幾個人能完全看懂。時間久了,人員一流動,就更陌生了。

通信網絡本來就是一門玄學,問題千奇百怪,誰敢說自己能算準每一種可能性?

第三個潛在的網絡安全風險,也是小棗君最擔心的風險,那就是外部的網絡攻擊。例如黑客、病毒和系統漏洞。

如今,通信設備基本上都IP化、雲化了,網絡越來越開放,也有的直接部署在公有云上,和外界的物理隔離越來越弱,比以前更容易受到攻擊。

現在的攻擊者,水平也比以前高很多,手段也更加多樣化,對網絡的威脅極大。

當然,運營商和設備商在防範網絡攻擊方面,投入也很大。

現在,所有廠商都關注“安全加固”這個概念。顧名思義,安全加固就是封堵系統漏洞,使得系統更加穩固。運營商會採用第三方工具,或聘請第三方廠家,對現網設備進行安全掃描,尋找安全漏洞,然後要求設備商進行整改和封堵。

圖片

一切為了安全

這種“道高一尺,魔高一丈”的博弈,會長期持續下去。

但是,小棗君個人認為,目前防禦的一方,在人員安全意識、技術能力方面,都存在很大問題。後續,我們遇到的安全事件,會越來越多。

希望有關單位和部門不要把安全放在嘴邊,真正花點功夫提升自己的人員素質,加強培訓。不然真出了事,補救就太遲了。

最後的話

日本KDDI的故障不是第一次,也肯定不是最後一次。通信網絡故障,就像擊鼓傳花,誰也不知道自己是不是下一個。

現在,廠商們都提出要引入AI,讓人工智能來接管網絡,以此降低網絡的故障率。也有的廠商,在網絡雲化的基礎上,搞灰度升級(即局部升級),也能大幅降低網絡風險。這些都是好的趨勢。

我覺得,在與通信網絡故障進行鬥爭的道路上,我們還有很長的路要走。路漫漫其修遠兮,通信人當上下而求索。

好了,以上就是今天文章的全部內容。