AI恐怖體操影片腿腳亂飛、大變活人，LeCun：影片產生模型根本不懂物理

2024.07.02

一段AI生成的體操視頻，引發近百萬網友圍觀，LeCun等一眾大佬還因為它吵起來了。

體操表演，emmmm怎麼不算？

透過影片右上角的浮水印，此段影片正是由那個一度被認為是「下一代」文生影片的Dream Machine（來自Luma AI）所產生的。

大夥兒看後紛紛坐不住，圍繞此討論的，是AI視頻領域的一個熟悉的話題：AI是否理解物理規律。

LeCun直接開麥：

視訊生成模型不理解基本物理知識。更不用說人體了。

圖片

華盛頓大學電腦科學教授Pedro Domingos看後也「搖了搖頭」：

AGI可能不會像某些人預期的那樣即將到來。

圖片

畸變雀食離譜

自從Sora問世以來，「AI是否理解物理規律」這個主題就被越來越多人關注。

下面這段Sora生成的「寄居蟹用燈泡當外殼的夜間場面」是個經典的例子，海浪與沙灘的互動非常細膩，寄居蟹腿上的纖毛也活靈活現。

圖片

對比真實拍攝的類似場景照片，也就燈泡沒有電源不應該亮這一個明顯破綻了。

圖片

最近Luma AI的Dream Machine也是一樣，生成的第一視角探廢棄房子真實感拉滿：

圖片

由此，不少人認為Sora、LUMA等的影片生成模型已經理解了簡單的物理規律。

然鵝，這次放的影片其實有點太離譜。

不只腿腳亂飛，頻頻上演大變活：

圖片

就這高難度的空中懸浮翻跟頭，也是牛頓都要被氣活了的節奏：

圖片

以至於網友看後還表示，說恐怖大可不必，說搞笑還差不多。

圖片

如此抽象，LeCun直接評論影片生成模型不會懂物理。

他還進一步解釋，Sora或者其它視頻生成模型都有類似的問題，而視頻生成技術無疑也肯定會隨時間推移而進步。

但：

真正理解物理的學習系統並不會具有生成性。就像鳥類、哺乳動物等比任何視訊生成系統更了解物理。然而，它們都不能產生詳細的影片。

圖片

類似還有另一種思考：

即使AI視頻生成模型之後會進化的很好，生成的視頻質量“完美”，那麼就意味著它理解物理了？

圖片

LeCun等的觀點，立刻引起網友的質疑：

鳥和哺乳動物也會產生詳細的視頻，只不過是在大腦中生成無法將其具像化。

圖片

然鵝，這種反駁並未說服LeCun。

圖片

此外，還有不少人持反對意見。

例如，GoogleDeepMind/Brain團隊研究員Lucas Beyer就指出：

這就像是展示一個由幾年前的Dall·E mini生成的圖像，然後稱當前的圖像生成方式註定失敗一樣。

畢竟，之前生圖模型生成的圖像be like：

圖片

至於模型會產生如此離譜的影片？

有網友認為是缺乏體操表演數據，還有網友認為是身體部位的模糊處理，使得模型無法理解人體結構，繼而不能保證肢體動作的連貫性。

圖片

視訊生成在計算上更為複雜，並且具有高度的上下文相關性，對詳細標註的訓練資料有更大的需求，這些需求現在還未得到充分滿足。

圖片

前段時間SD 3翻車，同樣對人體生成效果不好，網友也討論過這一問題，過於嚴格的數據審核，可能誤刪了一些無害的成人圖像，影響了模型對人體結構的理解。

圖片

還有一件事

除了Luma AI的Dream Machine生成體操影片大翻車，Runway的Gen-3也…

圖片

同款三頭六臂：

圖片

同款空中懸浮絕活：

圖片

參考連結：
[1]https://x.com/ylecun/status/1807497091964449266
[2]https://x.com/giffmana/status/1807511985807908926
[3]https://x.com/EricDai_E/status 1807540558216454281
[4]https://x.com/Grady_Booch/status/1807556807982010451