兆個電晶體,單機可訓練比GPT4大10倍的模型,最快最大的晶片面世

剛剛,晶片創業公司Cerebras 宣布了該公司歷史上最重要的消息,「我們發布了世界上最快的晶片,該晶片擁有高達4 兆個晶體管。」

一直以來,Cerebras 一直在「大」的晶片方面發展,此前他們發布的晶圓級引擎(Wafer Scale Engine,WSE-1)面積比iPad 還大。第二代WSE-2 雖然在面積上沒有變化,但卻擁有驚人的2.6 兆個電晶體以及85 萬個AI 優化的內核。

而現在推出的WSE-3 包含4 兆個電晶體,在相同的功耗和價格下,WSE-3 的效能是先前記錄保持者WSE-2 的兩倍。

此次發布的WSE-3 是專為訓練業界最大的AI 模型而打造的,基於5 奈米、4 兆晶體管的WSE-3 將為Cerebras CS-3 人工智慧超級電腦提供動力,透過90 萬人智慧優化的運算核心,提供每秒125 petaflops 峰值AI 效能(1 petaflops 是指每秒1,000,000,000,000,000(1 兆)次浮點運算)。

WSE-3 呈正方形,邊長為21.5 公分(面積為46225mm^2),幾乎是使用了整個300 毫米矽片來製造一個晶片。這麼看來,憑藉WSE-3,Cerebras 可以繼續生產世界上最大的單晶片了。 

WSE-3 大尺寸到底是個什麼概念,在將其與Nvidia H100 GPU 進行比較後發現,前者大了57 倍,核心數量增加了52 倍,晶片記憶體增加了800 倍,記憶體頻寬增加了7000 倍,結構頻寬增加了3700 倍以上。而這些都是晶片實現高性能的基礎。

圖源:https://spectrum.ieee.org/cerebras-chip-cs3

下圖展示了WSE-3 的特點:

WSE-3

前兩代晶圓級引擎的一些參數。圖源:https://twitter.com/intelligenz_b/status/1768085044898275534

配備WSE-3 的CS-3 計算機理論上可以處理24 兆個參數的大型語言模型,這比OpenAI 的GPT-4 等頂級生成式AI 模型的參數高出一個數量級(據傳有1 兆個參數)。這麼看來, 具有24 兆個參數的模型在一台機器上運行成為可能。

圖源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

CS-3 擁有高達1.2 PB 的龐大記憶體系統,旨在訓練比GPT-4 和Gemini 大10 倍的新一代前緣模型。24 兆個參數的模型可以儲存在單一邏輯記憶體空間中,無需分區或重構,從而極大地簡化了訓練工作流程並提高了開發人員的工作效率。在CS-3 上訓練1 兆個參數模型就像在GPU 上訓練10 億個參數模型一樣簡單。

CS-3 專為滿足企業和超大規模需求而建置。緊湊的四系統配置可以在一天內微調70B 模型,同時使用2048 個系統進行全面擴展,Llama 70B 可以在一天內從頭開始訓練,這對於生成式AI 來說是前所未有的壯舉。

最新的Cerebras 軟體框架為PyTorch 2.0 和最新的AI 模型和技術(如多模態模型、視覺transformer、MoE 和擴散模型)提供原生支援。Cerebras 仍是唯一能為動態和非結構化稀疏性提供本機硬體加速的平台,可以將訓練速度提高8 倍。

「八年前,當我們開始這趟旅程時,每個人都說晶圓級處理器是一個白日夢。我們非常自豪能夠推出第三代突破性人工智慧晶片,並且很高興將WSE-3 和CS-3 推向市場,以幫助解決當今最大的人工智慧挑戰」,Cerebras 執行長兼聯合創始人Andrew Feldman 如是說道。

Cerebras 聯合創辦人兼執行長Andrew Feldman

卓越的功耗效率和軟體易用性

由於每個組件都針對AI 工作進行了最佳化,CS-3 比任何其他系統都能以更小的空間和更低的功耗提供更高的運算效能。CS-3 效能翻倍,耗電量卻維持不變。

CS-3 具有卓越的易用性。相較於大模型常用的GPU,CS-3 所需的程式碼減少97%,並且能夠在純資料平行模式下訓練從1B 到24T 參數的模型。GPT-3 大小的模型在Cerebras 上實現只需要565 行程式碼(而GPU 需要20,507 行)—— 這是行業紀錄。

圖源:https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

目前,Cerebras 已經積壓了大量來自科技企業、科研機構的訂單。美國阿貢國家實驗室負責計算、環境和生命科學的實驗室副主任Rick Stevens 稱讚道:「Cerebras 的大膽精神將為人工智慧的未來鋪平道路。」

責任編輯:張燕妮來源: 機器之心