馬斯克推出Grok-1.5,接近GPT-4等級的效能
馬斯克指出,Grok-1.5將為xAI在X平台上的ChatGPT挑戰者聊天機器人提供支持,而Grok-2(新模型的繼任者)仍在訓練階段。他表示,下一個版本應該能夠“在所有指標上超越當前的AI”,但沒有分享它可能何時變得可用的具體細節。
Grok-1.5帶來了什麼?
xAI去年11月宣布了Grok-1,稱這個AI是以《銀河系漫遊指南》為模型,幾乎可以回答任何問題,以幫助人類在尋求理解和知識的征途中——無論背景或政治觀點如何。在GSM8K、HumanEval和MMLU等基準測試中,由xAI分享的數據顯示,Grok-1的表現超過了Llama-2-70B和GPT-3.5。
现在,随着Grok-1.5的发布,该公司在先前模型的基础上取得了显著改进,在所有主要基准测试中,包括与编码和数学相关的任务,都实现了显著提升。
xAI在部落格文章中指出:「在我們的測試中,Grok-1.5在MATH基準測試中達到了50.6%的分數,在GSM8K基準測試中達到了90%的分數,這兩個數學基準測試涵蓋了從小學到高中競賽問題的廣泛範圍。此外,它在評估程式碼產生和問題解決能力的HumanEval基準測試中得分為74.1%。”
在MMLU基准测试上,评估AI模型在不同任务上的语言理解能力,新模型得分为81.3%,比Grok-1的73%高出显著幅度。
此外,xAI也確認,Grok-1.5的上下文視窗可達128,000個標記(標記是單字、圖像、視訊、音訊或程式碼的整個部分或子部分)。這使得模型能夠一次處理和處理大量信息,比Grok-1多16倍,使其更適合分析、總結和提取長文檔中的信息。它甚至可以處理更長、更複雜的提示,同時仍保持遵循指令的能力。
接近OpenAI和Anthropic
憑藉著增強的推理和解決問題的能力,Grok-1.5不僅在基準測試中勝過其前身,而且還接近流行的開放和封閉源模型,包括Gemini 1.5 Pro、GPT-4和Claude 3。
例如,在MMLU上,Grok-1.5的81.3%得分超過了最近推出的Mistral Large,但落後於Gemini 1.5 Pro(83.7%)、GPT-4(86.4%,
截至2023年3月)及Claude 3 Opus(86.8%)。在GSM8K基準測試上也注意到了類似的差距,xAI模型僅落後於Google、OpenAI和Anthropic的產品。
值得注意的是,Grok-1.5唯一看起來有優勢的基準是HumanEval,在那裡它的表現超過了所有模型,除了Claude 3 Opus。 xAI希望繼續這些改進,並透過Grok-2提供進一步的性能提升,據馬斯克稱,應該在所有指標上超越當前的AI。該模型目前正在訓練中。
技術顧問Brian Roemmele表示,根據他與Grok-1的工作,Grok-2“在發佈時將成為最強大的LLM AI平台之一。它將在幾乎所有指標上超越OpenAI。”
Grok-1.5的可用性
至於Grok-1.5,xAI計劃下週開始部署。該公司表示,該模型最初將提供給早期測試者和那些已經在X平台(Twitter)上使用Grok聊天機器人的用戶——即時存取平台上的所有貼文。推出將分階段進行,公司將改進模型並引入幾個新功能——可能包括一種新的不受限制的有趣模式——同時逐步使其對更廣泛的用戶群可用。
當馬斯克在X上推出Grok時,被視為推動Grok和X的採用。他首先將AI作為平台的「高級+」訂閱的一部分,價格為每月16美元。然而,就在幾天前,這位億萬富翁分享說,聊天機器人也將為支付8美元每月的高級訂閱者啟用。在另一個更新中,他還確認,擁有一定級別的驗證訂閱者的追蹤者將免費獲得高級和高級+訂閱的好處,包括Grok。