中文字幕一区二区人妻痴汉电车,亚洲欧美日韩免费,欧美在线视频观看免费网站

　　蘋果公司近期推出了其最新的視頻生成模型 STARFlow-V，該模型在技術上與市場上的競爭對手如 Sora、Veo 和 Runway 存在明顯差異。STARFlow-V 的設計重點在于增強長視頻片段的穩定性，它采用了 “歸一化流” 技術，而不是當前主流的擴散模型。

　　蘋果公司表示，STARFlow-V 是首個在視覺質量和生成速度上能夠與擴散模型相媲美的產品，盡管其輸出分辨率為640×480像素，并且以每秒16幀的速度生成。與擴散模型通過多次迭代逐步去噪聲的方式不同，STARFlow-V 通過學習隨機噪聲與復雜視頻數據之間的直接數學變換，在單次訓練中完成視頻生成，極大提高了訓練效率，減少了步驟生成時可能出現的錯誤。

　　該系統能夠靈活處理多種任務，包括標準的文本轉視頻、圖像轉視頻(以輸入圖像作為起始幀)以及視頻編輯等功能。針對超過訓練長度的視頻，STARFlow-V 采用了滑動窗口技術，生成一個片段后保留最后幾幀的上下文，并繼續生成。然而，演示片段的時間變化顯示出有限的多樣性。

　　在生成長序列時，通常面臨逐幀生成導致的錯誤累積問題。為了解決這個問題，STARFlow-V 采用了雙重架構，一部分負責跨幀的時間序列管理，另一部分則專注于單幀的細節優化。為了穩定優化過程，蘋果在訓練時加入了一定量的噪聲，盡管這可能導致視頻略顯顆粒，但并行的 “因果去噪網絡” 會在保留運動一致性的同時去除殘余噪聲。

　　在訓練過程中，蘋果使用了7000萬對文本 - 視頻數據，結合了400萬對文本 - 圖像數據，利用語言模型將視頻描述擴展為九種不同變體。經過幾周的訓練，模型的參數從30億增加到70億，并不斷提高分辨率和視頻長度。

　　盡管 STARFlow-V 在 VBench 基準測試中的得分為79.7，略遜于一些領先的擴散模型，但其在自回歸模型中的表現依然優異，展現出在空間關系和人類表現方面的顯著優勢。未來，蘋果將繼續致力于提高計算速度、優化模型和強調物理準確性的訓練數據。