最近,對話形象生成模型在實現與音頻的逼真準確口型同步方面取得了進展,但在控制和傳達形象的細節表情和情感方面仍有不足,使生成的視頻缺乏生動性和可控性。
因此,北京大學的研究團隊提出了一種名為 InstructAvatar 的新穎方法,通過自然語言界面來控制虛擬形象的情感和面部動作,從而提供了對生成的視頻進行細粒度控制的能力。InstructAvatar可實現的效果包括:
通過自然語言輸入控制頭像的情緒和面部動作。
利用一個自動注釋管道構建訓練數據集,使得頭像可以根據文本指令和音頻進行生成。
生成的頭像能夠準確同步口型,表情自然且生動。
相比于現有方法,在細粒度情緒控制、口型同步質量和自然度方面有更好的表現。
InstructAvatar 的框架包括兩個組件:變分自動編碼器(VAE)和基于擴散模型的動作生成器。VAE 用于將動作信息從視頻中解耦,并根據音頻和指令生成器生成的動作潛變量來生成最終的視頻。在推理過程中,通過迭代去噪高斯噪聲來獲取預測的動作潛變量,并結合用戶提供的肖像,使用 VAE 的解碼器生成最終的視頻。
通過與基線模型的定性比較,可以看出 InstructAvatar 在唇同步質量和情感可控性方面取得了良好的效果。此外,模型生成的結果具有增強的自然性,并有效地保留了身份特征。
值得一提的是,該模型僅基于文本輸入推斷說話的情感,這在直觀上提出了一個更具挑戰性的任務。模型支持更廣泛的指令范圍,超出了大多數基線模型的范圍。
此外,該模型展現了精確的情感控制能力,并生成了自然的結果。InstructAvatar 具有細粒度的控制能力,并在領域之外的場景中表現出良好的泛化能力。


產品與服務
聯系站長
關于我們