GPT-4 Turbo重回王座,ChatGPT免費升級!數學暴漲10%/上下文全面碾壓

今天起,最新版的GPT-4 Turbo,正式向ChatGPT Plus用戶開放了!

圖片圖片

有了GPT-4 Turbo加持後,ChatGPT寫作、數學、邏輯推理和編碼的能力得到提升。

小編小試,果然ChatGPT最新數據已經更新到4月了。

圖片圖片

根據基準測試結果,GPT-4 Turbo在數學能力比上一代有了明顯改進。

圖片圖片

這也不難理解,新版的GPT-4 Turbo今天又登頂大模型排行榜。

圖片圖片

就連奧特曼本人表示,「GPT-4現在更智能,使用起來也更舒適」。

圖片圖片

另外,根據OpenAI介紹,GPT-4 Turbo回覆時,變得更直接、減少囉嗦內容,更加口語化。

圖片圖片

一起看看,GPT-4 Turbo在基準測試中能力如何?

數學表現提升近10%

在官方公開GitHub上,OpenAI放出了gpt-4-turbo-2024-04-09最新的評估結果。

主要在以下七大基準上,對模型完成了評估:

  • MMLU(測量大規模多工語言理解)
  • MATH(使用MATH資料集測量數學問題解決能力)
  • GPQA(研究生級別的Google防護問答基準)
  • DROP(需要對段落進行離散推理的閱讀理解基準)
  • MGSM(多語言小學數學基準):語言模型作為多語言思維鏈推理者
  • HumanEval(評估在程式碼上訓練的大型語言模型)
  • MMMU(用於專家通用人工智慧的大規模多學科多模態理解和推理基準)

在這個GitHub庫中,OpenAI主要使用零樣本、CoT設置,並採用簡單的指令,如「解決以下多項選擇題」。

這種提示方式更能真實反映模型在實際使用上的表現。

具體結果如下圖所示:

最新的gpt-4-turbo比以往的GPT-4系列,在性能上有著明顯的提升。

尤其數學方面,能力達到了近10%的躍階。

圖片圖片

而在整體的比較中,新模型也基本上實現了對Claude 3 Opus和Gemini Pro 1.5的全面超越。

圖片圖片

大海撈針比初代GPT-4提升4.3倍

同樣的,在大海撈針測試中,最新的gpt-4-turbo也是全方位地超越了先前的1106-preview。

圖片圖片

眾所周知,上下文越長,對模型的挑戰就越大。

而gpt-4-turbo可以在處理長達64k Token的內容時,效能直接媲美預覽版在26k Token時的表現。

圖片圖片

如果我們回顧一下GPT-4剛發佈時的情況,也就是大約一年之前。

最新的gpt-4-turbo在32k的配置下,性能比初代GPT-4提高了約4.3倍。

順便一提,那時候,模型能處理的上下文最高只到32k。

圖片圖片

GPT-4 Turbo重回王座

前段時間,Anthropic手上最強大的模型Claude 3 Opus,可以說是霸榜各大榜單。

不過,就在今天,OpenAI憑藉著全新的gpt-4-turbo,又把它從「榜一」的位置上拉了下來。

根據「LLM排位賽」最新的結果,GPT-4-Turbo再次超越Claude 3,奪得第一名。

圖片圖片

LMSYS Org從多個領域收集了超過8000張人類投票,發現GPT-4-Turbo在程式設計與推理方面的表現,超越了其他模型。

為了深入了解,研究人員在Arena引入了「類別」功能。

透過這項新功能,可以對程式設計、長查詢處理和多語言能力等不同領域進行了更詳盡的比較。

圖片圖片

研究人員也對程式設計領域中包含程式碼片段的所有對話進行了標記。在這一方面,GPT-4-Turbo展現出更強的表現。

圖片圖片

類似的,Naman Jain也發現,新版GPT-4-Turbo在LiveCodeBench(包含程式設計競賽題)上的表現,提升了驚人的4.5分。

這類問題對目前的LLM來說挑戰很大,而OpenAI這次的更新,明顯是大幅提升了模型推理能力。

圖片圖片

在長查詢領域(Token數量超過500),Claude-3 Opus表現最佳。

令人有些意想不到的是,Command R/R+在這一領域也有著非常高的得分。

圖片圖片

圖片圖片

有趣的是,如果只涉及英語提示,排名會與整體略有不同。

在這一類別中,三種GPT-4-Turbo依然處於領先地位。

而這種變化的產生,是因為隨著使用者基數的擴大,語言使用從英語轉向包括中文在內的多種語言。

圖片圖片

而在因應不同的語言時,模型的表現也有所差異。

例如,在中文環境中,Claude-3 Opus排名第一。

圖片圖片

以下是模型評分的信心區間(CIs) :

圖片圖片

以及整體的勝率熱圖:

圖片圖片

參考資料: