本文來自于微信公眾號 量子位(ID:QbitAI),作者:白交 衡宇。
Stable Diffusion要王者歸來了?
StabilityAI CEO Emad Mostaque最新推文,四段視頻引人無數(shù)遐想。
不少網(wǎng)友懷疑,這是Stable Video Diffusion新版本的演示Demo。
因為從效果上看,不管是畫面清晰度、一致性還是流暢度都十分驚人。
比如這只毛絨熊帶著泳鏡潛水。
毛絨熊動作十分流暢,甚至還眨眼睛。而背后也有豐富的海水細節(jié)。
再加上Emad Mostaque本人,自今年1月1日開始就消失了幾星期,始終未曾在社交網(wǎng)絡上露面。
網(wǎng)友覺得,這一波更像是憋了個大新聞。Stability AI is back?
(一度以為Stability AI已經(jīng)在競爭中落后)Stable Diffusion殺回來了?
從釋出的四秒Demo來看,應該是針對SVD視頻生成功能的升級。
不過基于文本還是圖像生成尚不能斷定,直接來感受一下效果。
還有這種動漫風夜晚的街道。
去年11月,Stable Video Diffusion(SVD)正式問世,當時除了支持圖像、文本到視頻之外,還支持物體3D合成。
按照當時透露的計劃, SVD只是作為基礎模型,接下來還將繼續(xù)拓展,建立起整個Stable Diffusion的生態(tài)系統(tǒng)。
當時網(wǎng)友對Demo的反饋包括光影不對、而且整體不連貫(視頻幀與幀之間閃爍)。
而從現(xiàn)在Demo看,以一個類似視頻作對比:綠色機器人躺在床上。
可以看到,機器人,以及旁邊的杯子燈盞,甚至床被枕頭的褶皺細節(jié)都更為豐富了。
而且在機器人臉上也有明顯的光影映射。
不過更多更新信息還得等官方版本發(fā)布才能知曉。
值得一提的是,在這條推文之后,Emad Mostaque還發(fā)了條類似的。
沒有文字,四張靜圖。
網(wǎng)友們表示了期待。“希望這個模型能全方位地超越SDXL,并更好地及時迭代。”“這是SD3?”
不過這個地球西紅柿是什么鬼???
又是同一天,他們的StableLM21.6B發(fā)布,一個只有16億參數(shù)的小語言模型。它經(jīng)過了英語、西班牙語、德語、法語、葡萄牙語和荷蘭語等多語種訓練。
幾天前,他們剛發(fā)布新年以來第一個大語言模型Stable Code3B。
如此頻繁的進展,Stability AI莫不是真的要翻身了? 決戰(zhàn)視頻生成
之所以要說翻身,因為Stability AI在上一波文生圖賽道里的確備受矚目,Stable Diffusion的爆火,讓它一度成為全球最受關注的AI獨角獸。
但隨著Midjourney的出現(xiàn),以及OpenAI谷歌在內(nèi)的頻繁進展,而內(nèi)部也不安生,包括CEO疑似剽竊成果、挪用公款,公司商業(yè)模式不明晰、拖欠工資等情況爆雷,Stability AI一度陷入風波之中。
去年11月官宣進軍視頻生成賽道,彼時已經(jīng)有runway和pika這樣的熱門玩家出現(xiàn)了。
如今SVD新版本疑似亮相,之所以受到眾人關注,除了本身企業(yè)之外, 還同當下正在高能爆發(fā)的視頻生成賽道密切相關。
不少網(wǎng)友直言:真是一波又一波的卷,一家比一家更卷。
要么是比版本發(fā)布迭代,這段時間國內(nèi)大廠阿里字節(jié)等新進展頻出。要么是從生成效果,清晰度、流暢性,前段時間,Moonvalley橫空出世,驚呆不少人。
又或者在可控性等上面去卷……
這不就在前幾天,runway的Gen-2再進化——
只需5個筆刷,對著一張圖一頓刷刷刷刷刷,原本靜止的小鳥們就各自運動了起來。
那么在視頻生成這個賽道,你看好Stability AI嗎?


產(chǎn)品與服務
聯(lián)系站長
關于我們