近日,UT奧斯丁等機構提出的StreamingT2V技術引發了廣泛關注,將AI視頻生成推向了新的高度。這項技術突破了以往視頻長度的限制,實現了生成高度一致且長度可擴展的視頻。
StreamingT2V技術的核心構架包括條件注意力模塊(CAM)和外觀保持模塊(APM)。CAM利用短期記憶單元確保視頻連續性,而APM作為長期記憶單元保持視頻中對象或場景的一致性。這兩個模塊的結合,使得生成的視頻不僅動態連貫,而且視覺效果高質量。在測試中,研究人員用Streaming T2V生成1200幀,長達2分鐘的視頻。
具體實現方法分為三個階段:初始化、Streaming T2V生成和Streaming Refinement。在初始化階段,利用文本到視頻模型創造視頻的前16幀;接著進入Streaming T2V階段,通過自回歸技術生成后續幀,保證視頻內容連貫性;最后,在Streaming Refinement階段對生成的視頻進行優化,提高畫質和動態效果。
特色亮點包括:
從文本描述生成2分鐘的視頻
創建具有復雜動態運動的視頻
確保長視頻中的時間一致性
該技術的出現標志著AI視頻生成的新突破,不僅可以生成1200幀甚至無限長的視頻,而且內容過渡自然平滑,豐富多樣。與此同時,StreamingT2V技術的不斷完善和提升也將進一步推動AI視頻生成領域的發展,為視頻內容創作提供更多可能性。


產品與服務
聯系站長
關于我們