建構大模型,GPU是唯一生命線?未必

2024.09.30

OpenAI 前首席科學家伊利亞曾公開表示:“GPU 就是新時代的比特幣。”

大模型一朝起飛,算力需求激增。作為AI淘金熱裡“賣鏟子的人”,英偉達也因此成為了這輪技術變革的最大贏家。隨著AI軍備競賽的升級,即使GPU價格一路看漲,市面上也常常「一卡難求」。

一方面,GPU產能吃緊,實在無法跟上需求;另一方面,若是算力供給受制於人,那就等於將領先窗口期拱手讓人。在這一背景下,眾多廠商要麼自研晶片,要麼尋找替代方案,在GPU之外尋找新的算力解決之道。

那麼,面對「一卡難求」的困境,到底如何破局?蘋果放棄GPU選擇TPU的背後有何玄機?國產晶片創業企業如何在巨頭壟斷的賽道上實現突圍?

本期「AIGC實戰派」邀請中昊芯英創辦人&CEO楊龔軼事,以及賽智伯樂投資合夥人蔡哲文就上述議題進行了探討。

1.GPU不會是整個AI大模型的終點

放眼目前的AI晶片市場,英偉達可以說一枝獨秀。而英偉達之所以能佔據如今的生態位,在蔡哲文看來,可以說「三分天注定,七分靠打拼」。

他談到,英偉達的成功首先得益於它抓住了AI技術發展的大趨勢。正所謂“時勢造英雄”,隨著大模型崛起,生成式AI遍地開花,算力需求激增,恰好市場上又缺乏專門針對這一領域的芯片,英偉達的GPU成為了一個自然的、合適的選擇,從而佔據了市場的先機。

更重要的是,英偉達在發展過程中堅持不懈地做出了種種努力。 「在2006年左右,英偉達推出了CUDA系統,最初其實面臨非常大的內部阻力,畢竟它不是一個能賺錢的東西,但最終英偉達堅持了下來,堅持推廣這一系統,讓大家接受並認可以此為中心構建的生態,從而自然而然地去用它的晶片。

那麼英偉達是否會繼續這樣一騎絕塵下去呢?未必。

「從產品和技術角度上來說,我們不認為英偉達的GPU會是整個AI大模型的終點。」楊龔軼事給了這​​樣的判斷。

這位在人生的關鍵節點選擇了回國創業的年輕創始人直接指出:“因為這個市場過於大了,所以會讓大家對市場上的很多現象產生'誤解'。為什麼如今英偉達GPU可以形成'壟斷' ? 因為還沒有專業的晶片出來,專業晶片還在設計、量產的路上,但此時整個行業應用爆發了。

人類歷史上,半導體的整個發展歷程總是以十年為一個週期發生重大變化。每一次變革都是因為現有應用的需求超過了現有工具的能力,當這個臨界點到來,自然會催生新的技術和產品。

楊龔軼事表示:當前AI的爆發正處於這樣一個節點,雖然初期各種應用可以利用現有晶片滿足需求,但隨著應用的深化和市場擴展,專業AI晶片的出現將不可避免地改變市場格局。

「(未來)GPU可能只佔10%到20%的市場,剩下80%的市場都是由新型的AI晶片去佔據。我們希望TPU會成為80%的市場份額裡面的主力軍。這是我們的願景,也是我們為什麼在國內成立中昊芯英的原因。

2.挑戰英偉達:尋找破局的可能

當然也有人說,英偉達的顯示卡未必是最適合的AI訓練工具,但它的CUDA生態,全球僅此一家。

由於CUDA的普及,大量的開發者和研究人員開始基於CUDA開發應用,形成了龐大的使用者基礎和應用生態。這種廣泛的應用基礎為英偉達GPU創造了強大的生態壁壘,使得其他競爭對手難以企及。但隨著技術的發展和市場需求的變化,CUDA的限制也逐漸暴露,一些新創公司和團隊正在嘗試擺脫CUDA,尋求開發更有效率、更適應特定需求的解決方案。

楊龔軼事認為,任何產業都包括人工智慧產業在內,一般都可以分成兩個階段:在研發階段,迭代速度是關鍵,因此開發者傾向於使用更熟悉的工具,這些工具的性價比是否是最優的反而不是主要考量;在產品化和商業營運階段,尤其是大規模部署往往導致成本的敏感度增加,此時性價比往往成為關鍵要素。這也是為什麼CUDA 生態雖然成熟,但到了產業化階段,就會顯現出其在性價比上的劣勢。

「因為所有通用的東西,它都是以損失絕對性能作為代價的。」楊龔軼事凡強調,CUDA作為一個通用的軟體棧,雖然提供了廣泛的支持,但這種通用性是以犧牲一定性能為代價的。在特定應用情境下,這種效能損耗可能導致性價比不高,進而促使業界去尋求更客製化、更優化的軟體堆疊。

另外值得關注的一點是,英偉達不僅是GPU製造商,也是大模型的重要建構者。遺憾的是,儘管英偉達在大模型領域投入龐大,但其GPU架構和CUDA軟體堆疊可能無法滿足未來技術演進對運算效能、成本效益和網路互聯的更高要求。

楊龔軼事指出,對於一個科技公司尤其是晶片公司而言,「它沒有任何可能性更改自己的核心構架,完全去革自己的命」。因為這牽涉到從零開始重新設計和開發,這是一個漫長且複雜的過程,相應的,建構在此之上的軟體棧同樣也要從頭開始。換言之,無論是晶片還是軟體棧,後續迭代都是基於前一代產品的實驗結果和真實場景。

某種程度上,「GPU最大的優點可能就是CUDA,但它的最大的劣勢也是CUDA」。

「因為CUDA軟體堆疊限制了它。如果將來我決定不再使用GPU,轉而採用TPU、LPU等其他更適合執行深度學習任務的硬體架構,這種慣性依賴就會變成它的限制條件。儘管GPU可以透過最佳化來提高效能,但它存在一個理論上的天花板。 ,更有效的AI晶片如TPU可能就會迎來爆發,因為它們能提供更高的性能和更低的成本。

蔡哲文對此也表達了認同。在他看來,終有一天GPU也會變得不那麼合時宜,正如當年GPU取代了CPU在圖形處理方面的功能一樣,現在出現了專門為AI設計的晶片,這些專用晶片在處理AI任務時比GPU更有效率。只要未來整個AI 應用的場景持續不斷迭代,整個市場變得足夠大,專用晶片逐漸取代GPU在AI領域的主導地位也是一個必然的趨勢。

此外,蔡哲文也提到一點:GPU雖然在平行處理方面表現出色,但其能耗相對較高。隨著對能源效率比要求的提升,高能耗可能成為GPU在AI領域的一個劣勢,尤其是在大規模運算任務中。不同地區在電力供應和新能源技術方面的差異可能會影響AI硬體的選擇。如果GPU的高能耗成為限制因素,而專用AI晶片能提供更低的能耗和更高的性能,它們可能會成為更受歡迎的選擇。

3.TPU 啟示錄:Google往事& 蘋果的選擇

隨著歷史的車輪滾滾向前,GPU 可能不再有今日的地位,但是當下GPU 依舊主導了當前這個AI 時代的硬體供應,而就在這樣強勢的包圍下,谷歌TPU 依舊穿越了重重考驗,在時間的歷練中成長為一個真正富有競爭力的對手。

2016年5月,Google在I/O大會上首次公佈了TPU,並表示這款晶片已經在Google資料中心使用了一年之久,李世石大戰AlphaGo 時,Google直接將TPU 稱之為AlphaGo 擊敗李世石的「秘密武器」。那麼在已有GPU 的前提下,Google為何執意要開發TPU呢?

楊龔軼事提到,Google開發TPU的過程實際上是一個「無心插柳柳成蔭」的故事。 TPU的產生並非Google高層直接規劃的結果,而是內部團隊自發性探索、逐步驗證、進而抓住時代契機實現商業化的過程。

最初,它誕生於一個內部創業計畫。因為Google內部的創業環境允許團隊進行自主探索與創新,TPU正是這種機制下的產物。不過鑑於軟體專案的成長潛力、變現速度遠大於硬件,所以TPU 本身價值是不符合創辦人願景的,它需要驗證其在特定領域的發展潛力。

於是, TPU 流轉於Google內部不同部門之間,在不同的應用情境下接受考驗。幸運的是,透過不斷地試用和迭代,TPU逐漸展現出其在模型訓練和推理中的效率和成本優勢。特別是在Google廣告部門使用後,推薦系統的精準度有所提升,這直接關聯到營收成長,證明了TPU的商業價值。

這也為Google持續投入資源進行TPU的研發和迭代提供了動力。最終,隨著AI技術的發展和大模型的崛起,TPU成為了Google在AI領域的一個重要競爭力。

不過在很長一段時間內,TPU 還是在GPU 的暗影下低調發展。直到最近,蘋果公佈Apple Intelligence的細節,才再次讓TPU 走到台前,接受聚光燈的洗禮。根據相關論文的揭露,蘋果並沒有採用常見的英偉達H100 等GPU,而是選了Google的TPU,訓練Apple Intelligence 的基礎模型,一時引起了許多討論。

對此,楊龔軼事表示,起初TPU是Google自家使用的技術,並未開放供外部使用,但其開源文化昭示著它終會將TPU集群作為雲端服務的一部分對外開放,以推動整個產業的發展。而蘋果是除了Google之外第一個使用TPU 進行大模型訓練的大型玩家。

「從技術角度來說的話,它主要的商業驅動力還是性價比。」楊龔軼事介紹,TPU在相同製程、製程和能耗條件下,由於其架構的特殊性,在深度學習和大模型領域具有更高的晶片利用率,通常可以達到3到5倍的效能提升,且在相同算力下成本可降低50%。而在商業化應用中,成本節約變得至關重要,而這時TPU的高性價比就成為了關鍵優勢。因此隨著產業發展,像TPU這樣的專用晶片很可能會成為主流算力平台。

蔡哲文則從產業角度對蘋果的這個選擇進行了分析。在他看來蘋果轉向TPU主要有四個原因:

一是市場驅動,隨著人工智慧的發展,市場需要性價比更高且易於複製的技術;二是技術演進,最初人工智慧缺乏專用晶片,GPU作為一種權宜之計被廣泛應用。但現在隨著需求激增,需要更具成本效益的晶片。第三是市場競爭規律,英偉達目前佔據主導地位,但這也激發了競爭對手開發針對AI優化的新晶片來挑戰其地位。尤其對於中小型新興企業而言,涉足TPU領域是個好機會;四是天然匹配度,TPU源自谷歌,在與谷歌的大模型框架的兼容性和商業匹配上具有天然優勢。整體來說,蘋果的選擇既是偶然也是必然。