在最近的文本到視頻生成(T2V)方法中,實現合成視頻的可控性通常是一個挑戰。通常情況下,為了解決這個問題,需要提供低級別的每幀指導,如邊緣圖、深度圖或待修改的現有視頻。然而,獲取這樣的指導可能需要大量的勞動力,并且限制于現有視頻會限制創造力。
TrailBlazer是英偉達的一個預訓練好的模型,他們提出一個邊界框的概念,來控制視頻對象的運動方向、速度和行為,而無需使用現有視頻或在推理時進行神經網絡訓練、微調或優化。例如,你可以通過改變邊界框的大小、方向,讓視頻中的對象看起來更接近或更遠離,也可以控制移動方向。
TrailBlazer 算法基于預訓練的 T2V 模型構建,易于實現。通過邊界框來引導物體,在空間和時間上進行注意力圖編輯。
此外,TrailBlazer支持通過對移動的邊界框和相應提示進行關鍵幀設置,來指導物體的軌跡和外觀,無需提供詳細的掩碼。該方法非常高效,與底層預訓練模型相比,附加計算量幾乎可以忽略不計。盡管邊界框引導的簡單性,生成的運動令人驚訝地自然,出現了透視和隨著邊界框尺寸增大而向虛擬相機移動的效果。
TrailBlazer 還支持通過關鍵幀設置來動畫化邊界框和提示,使用戶能夠在時間軸上改變物體的軌跡和粗略行為。生成的物體與指定的環境無縫銜接,為非專業用戶提供了一個可行的視頻敘事流程。
TrailBlazer 算法有一些局限性,其中包括繼承了底層預訓練模型(ZeroScope)的限制,如動物的錯誤肢體數目等問題,這些問題在許多基于擴散的 T2I 和 T2V 方法中普遍存在。
TrailBlazer的主要功能特點如下:
1. 文本到視頻擴散(text-to-video diffusion):使用預訓練模型進行視頻編輯,無需進一步的模型訓練、微調或在線優化。
2. 支持控制多個對象:如果視頻中有多個人物或物體,TrailBlazer允許您同時控制它們的動作,這對于創造復雜的場景非常有用。
3. 利用簡單的邊界框進控制對象:通過使用簡單的邊界框來指導主題的運動,而無需使用預先存在的視頻或在推理時進行神經網絡訓練、微調或優化。
4. 關鍵幀動畫:可以在視頻中設置“關鍵幀”,在這些關鍵幀上定義對象的位置和動作。
5. 高效且自然的運動生成:盡管使用簡單的邊界框進行指導,TrailBlazer生成的運動效果仍然非常自然,包括透視效果和隨著邊界框大小增加向虛擬攝像機移動等出現的效果。


產品與服務
聯系站長
關于我們