蘋果公司正式發(fā)布了其全新的視頻生成模型 STARFlow-V,該模型在底層技術(shù)上與當(dāng)前主流的Sora、Veo和Runway等競爭對手完全不同。STARFlow-V 放棄了業(yè)界主流的擴(kuò)散模型(Diffusion Model),轉(zhuǎn)而采用**“歸一化流”(Normalizing Flow)**技術(shù),旨在解決長視頻片段生成中的穩(wěn)定性和錯誤累積問題。
擴(kuò)散模型通過多步迭代去除噪聲來生成視頻,而STARFlow-V的核心“歸一化流”技術(shù),則直接學(xué)習(xí)隨機(jī)噪聲和復(fù)雜視頻數(shù)據(jù)之間的數(shù)學(xué)變換。這一根本性差異帶來了幾大優(yōu)勢:
訓(xùn)練效率:訓(xùn)練過程只需一次完成,無需多次小迭代,提高了效率。
生成速度:訓(xùn)練完成后可直接生成視頻,無需迭代計算,生成速度得到顯著提升。
錯誤減少:減少了逐步生成過程中常見的錯誤。
蘋果表示,STARFlow-V是首個在視覺質(zhì)量和速度上能與擴(kuò)散模型相媲美的同類技術(shù)。通過并行處理和重用先前幀數(shù)據(jù),其生成五秒視頻的速度比初始版本提高了約15倍。
雙架構(gòu)應(yīng)對長視頻挑戰(zhàn)
生成長序列是當(dāng)前視頻AI技術(shù)的難題,因逐幀生成容易導(dǎo)致誤差累積。STARFlow-V采用雙架構(gòu)方法來緩解這一問題:
一個組件管理跨幀的時間序列(運(yùn)動一致性)。
另一個組件優(yōu)化單個幀內(nèi)的細(xì)節(jié)(畫面質(zhì)量)。
通過這種設(shè)計,STARFlow-V在長達(dá)30秒的演示片段中保持了穩(wěn)定性,而競爭對手如NOVA和Self-Forcing在幾秒后便開始出現(xiàn)模糊或色彩失真。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們