Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

2024.02.23

足足醞釀一年之多,相較於上一代一共進化了三大能力。

來,直接上效果!

首先,是開掛的文字渲染能力。

且看這黑板上的粉筆字:

Go Big or Go Home (不成功便成仁),這個倒是殺氣騰騰啊~

圖片

路牌、公車燈牌的霓虹效果:

圖片

還有刺繡上「勾」得快要看到針腳的「晚安」:

圖片

作品一擺出,網友就大呼:太精確了。

圖片

以至於有人表示:趕緊把中文也安排上啊。

圖片

其次,多主題提示能力直接拉滿。

什麼意思?你儘管一次性往提示詞中塞入n多“元素”,Stable Diffusion 3:漏一個算我輸。

吶,仔細瞅下圖,這裡面就有“​​宇航員”、“穿著芭蕾舞裙的小豬”、“粉紅色雨傘”、“戴著禮帽的知更鳥”,角落裡還有“Stable Diffusion”幾個大字(可不是什麼浮水印)。

圖片

有了這個能力,一幅作品你想多豐富就有多豐富。

最後,當屬影像質量,再次進化了一個度數。

光看前面這些圖,就被衝擊到有沒有?!

而各種超清特寫,那是再信手拈來不過的了。

圖片

心動嗎?目前官方已開放排隊名單,大夥可前往官網申請。

咳咳,也不得不說,最近這AI圈可真是相當熱鬧啊。

有網友直呼,我的電腦已經Hold不住了…

圖片

Stable Diffusion 3來了!

全新的Stable Diffusion效果有多好,再給大夥奉送一些。

當然,所有出圖均來自官方,例如StabilityAI媒體負責人:

圖片

圖片

不得不說,文字效果實在最為吸人眼球,各種形式都能呈現得相當清楚和「應景」。

圖片

而看到上面這幅圖,不得不想到「Midjourney尷尬亮相學術界:為生物學論文亂配圖」一事——有了SD3之後,我們是不是可以製作非常專業的學術配圖了?

除了這些,SD3的「酒精水墨畫」也相當別出心裁:

圖片

動漫風格:

again,你可以在上面加上清晰的文字了。

圖片

由於目前需要排隊申請,大夥還不好實際測試摸底。

不過有機智的網友已經用相同的提示詞餵給了Midjourney(v 6.0)。

例如開頭的那張「紅蘋果與黑板字」(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk)

最終Midjourney給出的結果如下:

圖片

圖片

從這組對比來看,可以說是高下立判——SD3無論是文字拼字還是品質、色彩協調性等方面都更勝一籌。

技術方面,目前,模型可選擇的參數範圍在800M到8B。

詳細的技術報告尚未公佈,官方目前只透露主要結合了擴散型transformer架構以及flow matching。

前者其實和Sora一樣,附上的技術論文正是22年William Peebles同謝賽寧合寫的DiT。

圖片

DiT首次將Transformer與擴散模型結合到了一起,相關論文被ICCV 2023錄用為Oral論文。

在該研究中,研究者訓練了潛在擴散模型,以對潛在patch進行操作的Transformer 取代常用的U-Net 主幹網路。他們以Gflops衡量的前向傳遞複雜度來分析擴散Transformer (DiT) 的可擴展性。

而後者flow matching同樣也是來自22年,由Meta AI以及魏茨曼科學研究所的科學家完成。

圖片

他們提出了基於連續歸一化流(CNFs)的生成模型新範式,以及flow matching的概念,這是一種基於回歸固定條件機率路徑的向量場的免模擬CNFs的方法。結果發現使用有擴散路徑的flow matching,可以訓練出來的模型更穩健、更穩定。

不過最近看了這麼多影片產生進展,也有網友表示:

圖片

你覺得呢?

還有一件事

除此之外,也就在前一天,他們的影片產品Stable Video正式開放公測。

基於SVD1.1(Stable Video Diffusion 1.1),人人可用。

主要支援文生影片和圖生影片兩個功能。

圖片

參考連結:
[1]https://stability.ai/news/stable-diffusion-3。
[2]https://arxiv.org/abs/2212.09748。
[3]https://arxiv.org/abs/2210.02747。
[4]https://twitter.com/pabloaumente/status/1760678508173660543。