華為聯合IEEE Kazakhstan Subsection共同發布HPC無損以太和AI Fabric網絡技術白皮書
華為聯合IEEE Kazakhstan Subsection共同發布HPC無損以太和AI Fabric網絡技術白皮書
[阿拉木圖,2023年6月5日] 在2023華為中東中亞技術嘉年華期間,華為成功舉辦數通創新峰會。來自哈薩克斯坦、烏茲別克斯坦、沙特、阿聯酋、卡塔爾、巴基斯坦等多個國家的480多位客戶和夥伴參與本次峰會,共同討論行業數字化發展和網絡技術創新。會上,華為聯合IEEE Kazakhstan Subsection、阿聯酋高級國家研究和教育網絡Ankabut面向全球共同發布了《HPC無損以太和AI Fabric網絡技術白皮書》(以下簡稱“白皮書”)。白皮書闡述了無損以太數據中心網絡在HPC和AI領域廣泛的應用前景,並從網絡架構、關鍵技術、商業價值、最佳實踐等維度闡述了最新的技術研究與商用實踐成果。
華為聯合IEEE Kazakhstan Subsection、Ankabut發布《HPC無損以太和AI Fabric網絡技術白皮書》
白皮書指出,無損以太網絡技術具有智能RDMA、網絡級負載均衡等特徵,可實現零丟包轉發和90%的超高吞吐率,形成性能、兼容性、成本效益和靈活性等全方面優勢,已成為高性能計算的必然選擇。同時全球各國積極頒發政策支持HPC和AI發展,未來,無損以太網絡將在全球數字化中發揮關鍵作用。
白皮書中首先介紹了當前高性能計算網絡拓撲架構包括CLOS、MultiRail、直連拓撲。其中,CLOS是一個多級架構,在每一級,每個交換單元都和下一級的所有交換單元相連接,可以做到嚴格的無阻塞、可重構、可擴展;MultiRail通過框式設備的信元交換,實現平面內的絕對負載均衡;直連拓撲可實現超大規模組網,具備低成本、端到端通信跳數少的特點。
其次介紹了軟件架構從網絡自身的優化、網絡與應用系統的融合優化兩個方面來提升HPC&AI應用性能。其中網絡自身優化通過以下三個方面實現整網吞吐最高、時延最低的目標:第一是流控技術,通過識別環形緩存依賴並破除其產生的必要條件,從而解決PFC死鎖的問題,提高網絡可靠性;第二是擁塞控制,通過AI算法動態調節ECN門限,以獲得最大帶寬與最小時延;第三是流量調度,通過NSLB技術解決網絡負載不均的問題,實現90%高吞吐,以達成AI訓練效率提升20%的結果。網絡與應用系統的融合優化,則由HPC網絡通過在網計算實現運算優化,即通過MPI通信的在網聚合運算特性,網絡設備參與計算過程,減少任務完成時間。
HPC無損以太和AI Fabric網絡技術白皮書
當前整個社會發展的大趨勢是HPC&AI For Everything,無損以太網絡將持續為實現萬物互聯、萬網互通築基架梁;為千行百業提供算力服務,打造數字經濟時代的堅實高性能計算底座;為先進數字產業繁榮發展貢獻力量,助力全球數字化轉型。