Stability AI近日推出了名為Stable Video Diffusion的視頻生成模型,該模型基于該公司現有的Stable Diffusion文本轉圖像模型,能夠通過對現有圖像進行動畫化生成視頻。與其他AI公司不同,Stable Video Diffusion在開源領域提供了少數幾個視頻生成模型之一。
然而,需要注意的是,該模型目前處于“研究預覽”階段,使用者必須同意特定的使用條款,明確規定了其預期應用領域,如“教育或創意工具”等,同時禁止用于“真實事件或人物的表現”。考慮到過去類似AI研究預覽的歷史,有可能該模型很快會在暗網上流傳,引發對其濫用的擔憂,特別是因為它似乎沒有內置的內容過濾器。
Stable Video Diffusion提供兩個模型,分別為SVD和SVD-XT。其中,SVD將靜止圖像轉換為14幀的576x1024視頻,而SVD-XT在相同的架構下將幀數提升至24。這兩者都能以每秒3到30幀的速度生成視頻。白皮書顯示,這兩個模型最初在數百萬個視頻的數據集上進行訓練,然后在數十萬到百萬數量級的較小數據集上進行“微調”。
模型生成的四秒視頻片段質量相當高,被認為在某些方面可以與Meta、Google以及其他AI初創公司的視頻生成模型相媲美。然而,Stable Video Diffusion存在一些局限性,例如不能生成沒有運動或慢速攝像機移動的視頻,無法通過文本控制,不能呈現文本(至少不能清晰可辨認),也不能一致地生成面部和人物。
盡管存在這些局限性,Stability AI指出這些模型是相當可擴展的,并可適應生成物體的360度視圖等用例。公司計劃推出“一系列”建立在SVD和SVD-XT基礎上并擴展其功能的模型,以及一款將文本提示引入網絡模型的“文本到視頻”工具。最終目標是商業化,認為Stable Video Diffusion在“廣告、教育、娛樂等領域都具有潛在應用”。
然而,Stability AI目前面臨財務問題。據報道,公司最近通過可轉債籌集了2500萬美元,使其總融資達到1.25億美元。但是,公司并未以更高的估值完成新一輪融資,最后一次估值為10億美元。Stability AI曾計劃在未來幾個月內尋求四倍于此的估值,盡管公司收入較低,燒錢速度較高。
在這一時期,Stability AI還面臨一次高管離職。公司副總裁Ed Newton-Rex在一份公開信中表示,他因對如何使用版權數據進行爭論而離開了公司。這也是公司面臨的另一次挫折,因為Newton-Rex曾在穩定AI音樂生成工具Stable Audio的推出中扮演了關鍵角色。


產品與服務
聯系站長
關于我們