詳解6G系統數據治理方案的設計要點和原則

2022.02.19

這些數據還將作為知識經驗與其他系統和業務領域交流,產生更廣泛的價值。 本文轉載自微信公眾號「大數據DT」,作者童文 朱佩英。轉載本文請聯系大數據DT公眾號。 數據的使用範圍不同,數據治理本身不論是經濟內涵還是技術內涵也不同。數據治理是指通過相關流程和技術,對數據進行管理、維護和深度開發,獲得可以作為組織關鍵資產的高質量數據。 每個移動網絡運營商(Mobile Network Operator,MNO)將移動通信系統中產生的數據按技術域隔離並單獨存儲,這些技術域包括無線接入網(Radio Access Network,RAN)、核心網(Core Network,CN)、傳輸網(Transport Network,TN)以及運行、管理和維護(Operation, Administration, and Maintenance,OA&M)等。不同網元、不同參與者擁有的數據不夠公開透明,由此帶來的數據孤島是數據采集和共享中的主要瓶頸。 另一方面,大型OTT(Over-The-Top)業務公司在數據治理和變現策略方面(如數據存儲、分析服務、API接口)積累的專業知識遠遠領先於電信領域公司。 6G系統的數據治理方案將為AI和感知業務提供有力支持,將催生新的業務方式和系統特性。 一、設計要點和原則 數據治理的範圍遠不止是傳統的數據采集與存儲。總體上,系統設計需要考慮四個方面,如圖1所示。 ▲圖1 數據治理的設計要點 1. 數據可獲得性和質量 數據可獲得性和質量是AI能否在各行業中得到應用的最大挑戰之一。提高數據的可獲得性,意味著數據不能僅僅來自單個系統、單個領域,而需要同時來自多個系統的不同領域。這就提出了一個根本問題:如何打破(多廠商、多運營商、多行業之間的)物理邊界,讓數據進入異構數據海洋? 一旦收集並利用了原本分散且相互隔離的數據,另一個問題隨之而來:如何提高數據的質量?海量數據的獲取,並不意味著獲取的數據是可用的、高質量的。同時,在考慮降低數據處理計算復雜度和能耗的同時,還需要提高數據處理效率。 2. 數據主權 隨著社會的全數字化轉型,數據主權、數據安全和隱私的重要性空前突出,很多國家都製定了隱私保護的法律法規。服務提供商也在不斷更新它們的隱私保護方案,主要國家政府也正在製定或已發布了數據管理相關的規定。 例如,歐盟2018年頒布的《通用數據保護條例》(General Data Protection Regulation,GDPR)就從歐盟層面上規範了數據的使用。2019年,中國頒布了《數據安全管理辦法》,與2016年頒布的《網絡安全法》一起構成了中國版的GDPR。美國也正在實施隱私相關的法律,例如加州的《消費者隱私保護法》(Consumer Privacy Act)已於2020年1月正式生效。 如何充分挖掘數據的內在價值,為各種業務提供精確支撐的同時兼顧隱私保護,尊重數據主權,已成為近年來的熱門話題。6G系統設計應當考慮到監管的不確定性,尤其是存在於不同地區之間的監管差異帶來的不確定性。 3. 知識管理 一般來說,知識可以看作是經過處理後的具有特定用途或價值的數據,可以被不同技術和業務領域的物理實體或虛擬實體直接使用。 知識管理包括知識的生成、更新和開放。就知識的生成和更新來說,我們需要仔細把關數據的來源和質量,采取措施攔截不可靠甚至是惡意的數據源產生的低質量和有害數據。而將知識作為一種能力對外開放,則需要適合的平臺和接口設計。 4. 法律問題 各種各樣的傳感器和其他技術可以實時產生數據,這讓數據收集和使用越來越復雜和敏感。數據生成能力的提升不僅提供了新的數據流和內容類型,同時也引發了政策和法律對數據濫用的關註:別有用心的機構或政府可能利用這些能力達到社會控製的目的。 同時,新技術能力也讓普通人難以分辨技術內容的真假。比如,普通人就很難區分一段真實視頻和一段「深度偽造」(deep fake)的視頻。維 護技術的社會利益和防止技術能力被用於實施社會控製、剝奪自由之間存在一種脆弱的平衡,如何保護這一平衡,變得愈發重要。為了識別欺詐行為、防止先進技術被濫用,需要更嚴格的法律和政策手段。 二、架構特點 獨立的數據面是數據治理系統設計中的關鍵特性(如圖2所示),它將為6G系統提供數據相關的通用能力,從而為6G系統內部和外部功能提供透明、高效、內生安全和隱私保護。下文將介紹基本概念和相關網絡功能和業務。 ▲圖2 獨立的數據面實現完整的數據治理 1. 獨立數據面 獨立數據面旨在實現6G系統的數據治理方案,它處理的數據來自不同業務實體。不論數據來自哪裏,數據的整個生命周期都在這一平面完成處理,包括數據生成與收集、數據處理與分析、數據業務發放。 因此,獨立的數據面可以為外部商業實體(如汽車、製造和醫療等垂直行業)提供數據服務,也可以為6G系統本身(如控製面、用戶面和管理面)提供網絡自動化和優化服務。網絡運行相關的配置、狀態、日誌,以及用戶個人數據、傳感器數據、其他各方提供的數據都是收集的對象。 收集到的數據會形成豐富的數據資源,這些數據資源可以以分布式的形式被組織起來。為了防止直接將原始數據用於AI和感知等應用而導致的問題,原始數據在被使用之前通常需要預處理(如匿名化、數據格式再塑、去噪、轉換、特征提取等)。 為確保數據完整、過程合規,數據處理過程中所涉及的政策(如地理限製、國家或地區隱私法規等規定),不論是否來自監管層面,都默認需要遵守。將數據傳遞至數據面時,還需要遵守數據合同中約定的數據使用權利和義務。數據脫敏是保護隱私的關鍵,數據面需要提供這一服務。 上述由數據面提供的所有服務,都由自包含的OA&M系統來運營管理。 數據面的另一重要功能是基於數據收集、處理和編排生成知識。為了協調來自不同數據源的數據的處理和傳輸,知識的生產也需要按照合同要求進行。 隨著新的數據源、數據模型、數據主題被數據客戶關註和使用,數據治理框架可以不斷演進、不斷充實。因此,數據治理框架的運營管理和框架的實時發展是可以並行的。 由於數據面是一個邏輯概念,所以可以通過集中式分層架構實現,也可以作為一種分布在邊緣或深度邊緣節點上的邏輯功能實現。接下來我們將探討數據面的一些關鍵要素。 2. 數據治理的多方角色 數據治理生態系統包括兩個維度的角色:從數據客戶到數據提供者、從數據所有者到數據管理者。不同的角色可以由不同的業務實體擔任。因此,6G中的數據治理是典型的多方參與場景,使用6G系統提供的數據或知識的數據客戶、6G系統的數據提供者都可能參與其中。 6G可以有自己的數據治理框架,也可以在自身領域知識的基礎上,與其他行業參與者一起構建數據治理框架。也就是說,數據治理框架可能存在不同的演進或發展路線。因此,不同業務實體之間在運營階段如何確定數據權利非常重要,可以借助區塊鏈等去中心化技術解決這一問題。 3. 數據資源 數據資源的內容非常豐富,包括結構化數據、非結構化數據、預處理數據、後處理數據、原始數據。從無線環境中高效收集數據(如移動性等用戶行為數據和網絡狀態數據)是數據治理的前提。然後可以使用智能方法分析數據、將數據衍生的知識傳輸給內外部客戶。因而有必要了解數據的來源。 ▲圖3 主要數據源類別 圖3展示了6G系統中一些主要的數據源類別。 基礎設施:基礎設施即通信系統,包括RAN、TN和CN等各類物理和虛擬資源,以及雲、邊緣和深度邊緣等計算資源。基礎設施內部產生的數據包括計算資源信息、通信資源信息(如某一網絡功能的狀態)、感知信息(如來自RAN的感知信息),以及某些用戶信息(如移動性信息、位置和相關上下文)。 運營支撐系統(Operation Support System,OSS):這一層的數據包括所有OA&M相關的數據,如物理設備狀態、系統運行信息、業務發放信息。 業務支撐系統(Business Support System,BSS):這一層的數據包括所有與業務邏輯相關的數據,如客戶信息、夥伴關系管理信息。更重要的還有消費者和企業客戶的訂閱數據,對於這些數據,他們應擁有完全所有權和控製權。 行業通信系統:6G行業應用場景中,收集的數據可能還包括行業相關OA&M數據信息、行業用戶信息(如流量規律和移動性數據)以及存儲在雲端的業務/服務數據。此類數據的所有權應完全屬於行業客戶。 終端:來自終端側的數據包括計算和通信資源、業務使用概況、感知知識等。此類數據的所有權應完全屬於終端用戶。 4. 數據搜集 6G中,數據治理的一個主要作用就是提供合適的方法構建數據資源,這需要合適的架構和網絡功能的支持,構建數據資源的第一步是收集數據,這一步有如下幾個關鍵動作: 與數據源建立協議(如數據授權)和安全連接。 接收數據收集需求,確定收集範圍,根據需求確定收集的地點、時間和方式。 將數據屬性告知數據源。 從數據源收集數據並入庫。 對數據庫中的數據進行操作和維護。 5. 數據分析 在管理數據資源的基礎上,為不同類型客戶提供數據分析服務便成為可能。有如下四種數據分析服務可以提供: 描述性分析挖掘歷史數據的統計信息,提供網絡洞察信息,如網絡性能、流量模型、信道狀況、用戶等方面。 診斷性分析可以實現網絡故障和業務損傷自主檢測,識別網絡異常根因,從而提升網絡可靠性和安全性。 預測性分析利用數據來預測未來事件,如流量模式、用戶位置、用戶行為和偏好、資源可用性,甚至是故障。 建議性分析基於預測性分析為資源分配、內容展示等提供建議。 數據面提供的知識來自數據分析服務,提供的知識包括主動知識(如行動建議)和被動知識(如信息共享和客戶的行動決定)。 數據分析服務可以基於客戶需要,並根據客戶需求定製。數據面應按需多維度開放服務和數據,表1列舉了可向客戶提供的服務類型的示例。可以預見的是,實際的客戶類型比表格中所列舉的更豐富,客戶對數據分析的需求和使用場景也各不相同。 ▼表1 數據面提供的多維數據服務示例 6. 數據脫敏 收集和儲存敏感數據,就涉及了隱私風險,需要承擔隱私保護責任。數據脫敏是回應隱私關切、實現法律遵從的重要動作,對於在6G設計中支持AI和感知業務也尤為重要。 特別是對於AI任務,需要考慮跨領域的設計。近來有大量關於AI領域中差分隱私(differential privacy)的研究,探討如何將單個設備的訓練數據匿名化。 模型訓練和AI推理過程中的數據脫敏在6G設計中必不可少。實現差分隱私的方法包括:在不影響數據統計屬性的前提下為訓練數據加入噪聲,訓練模型仍然可以捕捉到原始數據集的特征;使用加密技術,使機器學習基於加密的(而非解密的)數據進行。還有一種方法是,讓設備發送模型參數,而不是訓練數據,比如說聯邦學習和拆分學習。 在這一過程中存在一個風險,如果有完全掌握學習方法的內部人員心懷不軌,那麼他可以利用模型逐漸收斂的過程構造與訓練數據類似的信息。例如在聯邦學習中,信息可能因此被泄露給惡意設備。 不論何種學習方法,數據脫敏都是需要考慮的問題。因此,我們需要在這個前提下,思考如何處理不同學習方法之間的差異和學習方法自身的局限性。 關於作者:童文 博士,華為無線CTO,華為5G首席科學家,華為Fellow,IEEE Fellow,加拿大工程院院士,曾獲IEEE通信學會傑出行業領袖獎、費森登獎章。朱佩英 博士,華為無線研究領域高級副總裁,華為Fellow,IEEE Fellow,加拿大工程院院士。