蘋果展示AI 新模型MGIE,可一句話精修圖片

2 月8 日消息,相比較微軟的風生水起,蘋果公司在AI 領域的佈局顯得低調很多,但這並不意味著蘋果在該領域就沒有絲毫建樹。蘋果公司近日發布了名為「MGIE」的新型開源人工智慧模型,它可以根據自然語言指令編輯圖像。

圖源:VentureBeat 與Midjourney 合作製作

MGIE 的全名為MLLM-Guided Image Editing,利用多模態大型語言模型(MLLM)解釋使用者指令並執行像素級操作。 MGIE 可以理解使用者下達的自然語言指令,進行Photoshop 風格的修改、全域照片最佳化和局部編輯等操作。

蘋果和加州大學聖塔芭芭拉分校研究人員合作,在2024 年國際學習表徵會議(ICLR)上發表MGIE 相關研究成果,而ICLR 是人工智慧研究的頂級會議之一。

在介紹MGIE 之前,IT之家先來介紹下MLLM。 MLLM 是一種強大的人工智慧模型,可以同時處理文字和圖像,從而增強基於指令的圖像編輯能力。 MLLMs 在跨模態理解和視覺感知反應生成方面表現出卓越的能力,但尚未廣泛應用於影像編輯任務。

MGIE 透過兩種方式將MLLMs 整合到影像編輯過程中:首先,它使用MLLMs 從使用者輸入中推導出富有表現力的指令。這些指令簡潔明了,為編輯過程提供了明確的指導。

例如,當輸入「讓天空更藍」時,MGIE 可以產生「將天空區域的飽和度提高20%」的指令。

其次,它使用MLLM 產生視覺想像力,即所需編輯的潛在表徵。這項表徵捕捉了編輯的本質,可用來指導像素級操作。 MGIE 採用了一種新穎的端到端訓練方案,可聯合優化指令推導、視覺想像和影像編輯模組。

MGIE 可以處理各種編輯情況,從簡單的顏色調整到複雜的物件操作。該模型還可以根據使用者的偏好執行全域和局部編輯。 MGIE 的部分特性和功能包括:

  • 基於指令的表達式編輯: MGIE 可以產生簡潔明了的說明,有效地指導編輯過程。這不僅能提高編輯質量,還能增強使用者的整體體驗。
  • Photoshop 風格修改: MGIE 可以執行常見的Photoshop 風格編輯,例如裁剪、調整大小、旋轉、翻轉和添加濾鏡。該模型還可以應用更高級的編輯,例如更改背景、添加或刪除物件以及混合圖像。
  • 全域照片最佳化:MGIE 可以最佳化照片的整體質量,如亮度、對比、清晰度和色彩平衡。該模型還能應用素描、繪畫和漫畫等藝術效果。
  • 局部編輯: MGIE 可以編輯影像中的特定區域或對象,如臉部、眼睛、頭髮、衣服和配件。模型還可以修改這些區域或物件的屬性,如形狀、大小、顏色、紋理和風格。

MGIE 是GitHub 上的一個開源項目,使用者可以點擊這裡找到程式碼、資料和預訓練模型。該專案還提供了一個演示筆記本,展示如何使用MGIE 完成各種編輯任務