蘋果公司近期推出了其最新的視頻生成模型 STARFlow-V,該模型在技術上與市場上的競爭對手如 Sora、Veo 和 Runway 存在明顯差異。STARFlow-V 的設計重點在于增強長視頻片段的穩定性,它采用了 “歸一化流” 技術,而不是當前主流的擴散模型。
蘋果公司表示,STARFlow-V 是首個在視覺質量和生成速度上能夠與擴散模型相媲美的產品,盡管其輸出分辨率為640×480像素,并且以每秒16幀的速度生成。與擴散模型通過多次迭代逐步去噪聲的方式不同,STARFlow-V 通過學習隨機噪聲與復雜視頻數據之間的直接數學變換,在單次訓練中完成視頻生成,極大提高了訓練效率,減少了步驟生成時可能出現的錯誤。
該系統能夠靈活處理多種任務,包括標準的文本轉視頻、圖像轉視頻(以輸入圖像作為起始幀)以及視頻編輯等功能。針對超過訓練長度的視頻,STARFlow-V 采用了滑動窗口技術,生成一個片段后保留最后幾幀的上下文,并繼續生成。然而,演示片段的時間變化顯示出有限的多樣性。
在生成長序列時,通常面臨逐幀生成導致的錯誤累積問題。為了解決這個問題,STARFlow-V 采用了雙重架構,一部分負責跨幀的時間序列管理,另一部分則專注于單幀的細節優化。為了穩定優化過程,蘋果在訓練時加入了一定量的噪聲,盡管這可能導致視頻略顯顆粒,但并行的 “因果去噪網絡” 會在保留運動一致性的同時去除殘余噪聲。
在訓練過程中,蘋果使用了7000萬對文本 - 視頻數據,結合了400萬對文本 - 圖像數據,利用語言模型將視頻描述擴展為九種不同變體。經過幾周的訓練,模型的參數從30億增加到70億,并不斷提高分辨率和視頻長度。
盡管 STARFlow-V 在 VBench 基準測試中的得分為79.7,略遜于一些領先的擴散模型,但其在自回歸模型中的表現依然優異,展現出在空間關系和人類表現方面的顯著優勢。未來,蘋果將繼續致力于提高計算速度、優化模型和強調物理準確性的訓練數據。


產品與服務
聯系站長
關于我們