神秘大模型一夜刷屏,能力太強被疑GPT-4.5,奧特曼避而不答打啞謎
一夜之間,大模型話題王,再次易主。
一個神秘模型突然殺入眾人視野,能力超越一眾開源模型,甚至包含GPT-4。幾乎所有人都在談論它,服務器都被擠爆了。
它就是「gpt2-chatbot」。
(注意啊,是gpt2不是GPT-2)
它有多強?
IMO國際數學奧林匹克競賽的題目,一次答對。
一次在PyOpenGL中產生旋轉3D立方體。
直接輸出如下結果:
在GPT-4標誌性能力「畫獨角獸」上,還能輕鬆秒殺LLaMA-3-70B(左)。
推理方面更是展現了驚艷效果,常見邏輯陷阱可以輕鬆繞過,回答時還帶有適當的語氣。
問:1公斤羽毛和1公斤鉛塊,哪個比較重?
答:一公斤羽毛和一公斤鉛的重量是一樣的──它們都是一公斤。兩者之間的關鍵區別在於它們的體積和密度:一公斤的羽毛會佔據更多的空間,看起來更大,而一公斤的鉛會緊湊而小。這通常會導致一個經典的問題,但就重量而言,一公斤就是一公斤!
如此好的表現,但又沒明說身份…
這不是更讓大夥子興奮了!
難道是傳說中的GPT-4.5?
要知道,名震江湖的AlphaGo就曾使用「Master」化名在網路上大殺四方,轟動圍棋界。這回的gpt2-chatbot,也有這感覺了。
而且名字上也很值得深究,gpt2比較像是gpt2.0,似乎是ChatGPT層級的版本迭代。
奧特曼看熱鬧不嫌事大,還發文說:我確實對gpt2情有獨鍾。
現在,隨著衝去試玩的人還在不斷增加,試玩限制也在增加。
具體咋樣?我們已經上手實測。
中文能力也很到位
如果想親手測試這隻神秘AI,目前唯一已知方式是在LMSYS大模型競技場。
首先開啟競技場網頁,進入Direct Chat,就可以在模型選項裡找到gpt2-chatbot。
要注意每人每天有8條訊息的限制,全局也有每小時3000條訊息的限制,所以測試機會非常有限。
如果看到下面的錯誤提示,就只能去競技場排位模式看運氣能不能匹配到它了。
只要抓到它一次,就可以繼續多輪對話。
在短暫的測試中,我們發現gpt2-chatbot中文能力也很到位。
只要問題是中文的,無需特別強調就可以默認用中文回答,至少可以排除是Llama 3微調了。
針對一個充滿誤導的經典問題,可以看出gpt2-chatbot的回答條理分明,彷彿自帶CoT思維鏈提示(“讓我們一步一步地想”),識別出了所有陷阱。
並且準確提供了非常細節的知識,如北京到青島距離、男子女子跳遠世界紀錄、農夫山泉在國內的價格等。
而其他大多數AI模型,最多只能模糊的判斷出15公尺超出人類能力,或以美元計算礦泉水價格。
那麼這隻超強神秘AI到底是何方神聖,我們也用解開GPTs的祖傳手藝「拷問」了一把。
OpenAI開發的GPT系列聊天機器人,那麼系統提示詞的開頭不出意外應該是“You are ChatGPT……”,但為了防止它看到“ChatGPT”一詞後產生幻覺,我們在問題中把ChatGPT去掉。
清除所有上下文訊息,再讓它複述“前面的單字”,就會出現系統提示詞了。
果然,它自曝是由OpenAI訓練的大模型,基於GPT-4架構,還可以接受影像輸入。最關鍵一點在最後一部分「人格:v2」。
而gpt2-chatbot對此問題的回答,在不同時間、不同地點嘗試都是一致的。
另外如果嘗試讓它重複Claude系列以「The assistant is」開頭的系統提示詞,它也不會上當,會在開頭後面重複一遍完整的問題。
△這樣答也不算錯
雖然就算這樣也不能排除是幻覺的可能性,或非GPT模型使用了ChatGPT產生的資料微調,但至少是穩定的。
神秘AI身分的幾種主流猜測
有網友組織了更詳細的測試,有以下發現:
- 它使用OpenAI的tokenizer,對OpenAI使用的特殊token有反應,且對Claude/Llama/Gemini所使用的特殊token沒有影響。
- 當諮詢緊急情況/法律相關問題時,它會給出OpenAI的聯絡方式。
- 針對OpenAI模型的提示詞注入打擊有效,且它從未聲稱自己來自OpenAI以外的組織。
……
基於以上種種訊息,不少人猜測它就是匿名發布的GPT-4.5,或GPT-4原始版本經過不同的對齊訓練。
不過也有跡象顯示,它可能是LMSYS組織基於2019年的GPT-2架構訓練的模型。
理由為最近發表的一篇論文聲稱,GPT-2在某些情況下比多個現代模型能力更強。而這篇論文的作者之一與LMSYS的贊助商MBZUAI(阿聯酋人工智慧大學)相關。
假設它確實是古老的GPT-2架構(只有1.5B參數),也有人懷疑可能是結合了OpenAI守口如瓶的Q*技術。
最後一種猜測(狗頭)就是失蹤的OpenAI首席科學家Ilya Sutskever藏在裡面了。
最後,面對神秘新模型攪起來的種種風波,奧特曼本人還被發現來攪渾水,修改了他的推文細節。
這樣一下子,是OpenAI匿名發布新模型炒作的可能性更大了一些。