世界頂尖多模態大模型開源！又是零一萬物，又是李開復

2024.01.22

領先中英文兩大權威榜單，李開複零一萬物交出多模態大模型答案卷！

距離其首款開源大模型Yi-34B和Yi-6B的發布，僅間隔不到三個月的時間。

模型名為Yi Vision Language （Yi-VL），現已正式以全球開源為導向。

同屬Yi系列，同樣有兩個版本：

Yi-VL-34B和Yi-VL-6B。

先來看兩個例子，感受一波Yi-VL在圖文對話等多元場景中的表現：

Yi-VL對整幅圖做了詳細分析，不僅說明了指示牌上的內容，甚至連「天花板」都有照顧到。

中文方面，Yi-VL也能清晰有條理地準確表達：

此外，官方也給出了測試結果。

Yi-VL-34B在英文資料集MMMU上準確率41.6%，僅次於準確率55.7%的GPT-4V，超越一系列多模態大模型。

而在中文資料集CMMMU上，Yi-VL-34B準確率36.5%，領先目前最前沿的開源多模態模型。

Yi-VL長啥樣？

Yi-VL基於Yi語言模型研發，可以看到基於Yi語言模型的強大文字理解能力，只需對圖片進行對齊，就可以獲得不錯的多模態視覺語言模型——這也是Yi-VL模型的核心亮點之一。

在架構設計上，Yi-VL模型是基於開源LLaVA架構，包含三個主要模組：

Vision Transformer （簡稱ViT）用於影像編碼，使用開源的OpenClip ViT-H/14模型初始化可訓練參數，透過學習從大規模」圖像-文字」對中提取特徵，使模型具備處理和理解圖像的能力。
Projection模組為模型帶來了影像特徵與文字特徵空間對齊的能力。此模組由一個包含層歸一化（layer normalizations）的多層感知機（Multilayer Perceptron，簡稱MLP）所構成。這項設計使得模型可以更有效地整合和處理視覺和文字訊息，提高了多模態理解和產生的準確度。
Yi-34B-Chat和Yi-6B-Chat大語言模型的引入為Yi-VL 提供了強大的語言理解和生成能力。這部分模型借助先進的自然語言處理技術，能夠幫助Yi-VL深入理解複雜的語言結構，並產生連貫、相關的文本輸出。

△圖說：Yi-VL模型架構設計與訓練方法流程一覽

在訓練方法上，Yi-VL模型的訓練過程分為三個階段，旨在全面提升模型的視覺和語言處理能力。

第一階段，使用1億張的「圖像-文字」配對資料集訓練ViT和Projection模組。

在這一階段，影像解析度被設定為224x224，以增強ViT在特定架構中的知識獲取能力，同時實現與大型語言模型的高效對齊。

第二階段，將ViT的影像解析度提升至448x448，讓模型更擅長辨識複雜的視覺細節。此階段使用了約2500萬“圖像-文字”對。

第三階段，開放整個模型的參數進行訓練，目標是提升模型在多模態聊天互動中的表現。訓練資料涵蓋了多樣化的資料來源，共約100萬「圖像-文字」對，確保了資料的廣泛性和平衡性。

零一萬物技術團隊同時也驗證了可以基於Yi語言模型強大的語言理解和生成能力，用其他多模態訓練方法例如BLIP、Flamingo、EVA等快速訓練出能夠進行高效圖像理解和流暢圖文對話的多模態圖文模型。

Yi系列模型可以作為多模態模型的基座語言模型，為開源社群提供一個新的選項。同時，零一萬物多模態團隊正在探索從頭開始進行多模態預訓練，更快接近、超過GPT-4V，達到世界第一梯隊等級。

目前，Yi-VL模型已在Hugging Face、ModelScope等平台上向公眾開放，用戶可親身體驗這款模型在圖文對話等多元場景中的表現。

超越一系列多模態大模型

在全新多模態基準測試MMMU中，Yi-VL-34B、Yi-VL-6B兩個版本都有不俗表現。

MMMU （全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大規模多學科多模態理解與推理）資料集包含了11500個來自六大核心學科（藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程）的問題，涉及高度異質圖像類型和交織文本圖像訊息，對模型的高級知覺和推理能力提出了極高要求。

而Yi-VL-34B在該測試集上以41.6%的準確率，成功超越了一系列多模態大模型，僅次於GPT-4V （55.7%），展現出強大的跨學科知識理解和應用能力。

同樣，在針對中文場景打造的CMMMU資料集上，Yi-VL模型展現了「更懂中國人」的獨特優勢。

CMMMU包含了約12,000道源自大學考試、測驗和教科書的中文多模態問題。

其中，GPT-4V在該測試集上的準確率為43.7%， Yi-VL-34B以36.5%的準確率緊隨其後，領先目前最前沿的開源多模態模型。

專案網址：
[1]https://huggingface.co/01-ai
[2]https://www.modelscope.cn/organization/01ai

NEWS

世界頂尖多模態大模型開源！又是零一萬物，又是李開復

Yi-VL長啥樣？

超越一系列多模態大模型

C++中產生死鎖的原因深度解析

GPT-5，奧特曼最新劇透