你知道什么是容灾吗?

2021.11.12

无论是3G4G还是5G,每个运营商都为本地区的通信业务建立了容灾局点。容灾局点除了能保证各类数据的可靠,更能够保证业务的可用性。这才是建立容灾系统最重要的意义。




你沒有意外,如果發生地震或其他自然災害,你在某家銀行的賬戶信息是否會丟失?




其實,這並不用我們操心。銀行的用戶信息是非常重要的數據,因此銀行開設之前必須擁有一套完整的容災解決方案來解決這類問題,即建立容災系統。

 

所謂容災系統,字面理解就是指容忍災難的系統。有了這個系統,哪怕是災難來襲,銀行里的用戶數據也可以安然自若。這個災難,大到自然災害,小到物理故障。為了保證數據的安全性和業務的可靠性,每家銀行會在國內多個地區建立一個或幾個容災站點,互相之間備份數據,相當於創造幾個“副本”。

 

當主用站點遭遇災難破壞,導致數據發生永久性丟失時,就可憑藉容災站點的“副本”,實現數據恢復。如果沒有容災站點的數據備份,將會造成不可估量的經濟損失和惡劣的社會影響。

 


銀行有容災系統,通信有沒有容災系統呢?答案是肯定的。每個運營商都制定了一套完整嚴密的容災解決方案,來保障所有用戶的通信數據,包括你的話費餘額!

無論是3G4G還是5G,每個運營商都為本地區的通信業務建立了容災局點。容災局點除了能保證各類數據的可靠,更能夠保證業務的可用性。這才是建立容災系統最重要的意義。

5GC為例,與金融系統類似,5GC也採用跨地域的異地容災部署方式。在兩個不同的地區分別部署數據中心(DCData Center),當某地DC中的網絡設備由於某種原因不可用時,由另一地DC迅速接管業務,從而保障5G業務的可用性。這就是雙DC部署。雙DC部署是實現部署可靠性的一種方式。




除了雙DC部署,5GC容災解決方案還提供哪些措施實現容災呢?



部署可靠性

5GC容災解決方案支持雙DC部署、互斥部署、NF(Network Function 網絡功能)分域部署、網絡雙平面等方式實現部署可靠性。

 

互斥部署是指將虛機部署在不同的物理機上,從而保證當某個物理機出現異常時,其他虛機仍能夠提供服務。簡而言之就是“雞蛋不要放在一個籃子裡”。

 

NF分域部署是指NF部署採用管理域、業務域、轉發域分離的方式進行。

 

網絡雙平面是指5GC NF所有邏輯網絡接口,都至少有2個不同的物理網絡平面互為備份。當其中一個網絡平面發生故障時,另一個網絡平面能夠接管所有的網絡流量,保證業務不中斷。

 

架構可靠性

5GC容災解決方案支持負荷分擔和無狀態特性等方式,從而實現架構可靠性。

 

負荷分擔是指,所有運行實例共同分擔處理業務。當部分運行實例異常宕機時,由其餘運行正常的實例共同分擔處理業務,從而保證業務正常運行。負荷分擔採用N+M冗餘方式,即當N個實例可以滿足系統容量的業務處理時,再提供M個實例用於冗餘。



 

上圖是典型的3+1冗餘方式,當3個實例可以滿足系統容量的業務處理時,再提供1個實例用於冗餘。當任何1個運行實例故障時,其他3個運行實例繼續工作,從而保證系統容量及業務處理不受影響。

 

無狀態是指微服務的無狀態設計。 3GPP 定義了UDSF(Unstructured Data Storage Function,非結構化數據存儲功能)用於統一存儲NF的狀態數據(又稱為非結構化數據,例如移動數據等等)

 

業務邏輯APP隨時可以執行彈性、擴容、銷毀、重生、遷移操作,這便是計算與存儲分離。無狀態設計在實現架構可靠性的同時,也保障了數據可靠性。


數據可靠性

5GCNF按無狀態設計,在當前處理流程完成後,將用戶及會話上下文等狀態數據保存在UDSF中,由UDSF對數據進行多副本保存。 UDSF支持1+1冗餘、雙DC部署的容災方式,從而保證數據可靠性。

 

資源可靠性

5GC容災解決方案支持鏈路檢測、自愈等機制實現資源可靠性。

 

自愈是指:對於持續出現故障的業務處理節點,系統會進行節點的多級自愈。根據用戶的自愈策略配置,系統依次採用重啟容器、重推容器、重啟虛機、重建虛機逐級上升的策略進行自愈,從而盡快恢復業務。

 

鏈路檢測是指:業務節點會定時發送心跳保活報文給管理節點,管理節點檢測出長時間未發心跳的節點,則判定為故障節點,從而觸發業務遷移流程,把故障節點的業務遷移到其他正常節點,從而保證業務的可靠性。

 

好了,話說到這裡,你再也不用擔心你的話費餘額了吧,更不用擔心存在銀行的money了吧!你也知道什麼是容災了吧。