南開大學與字節跳動研究人員合作推出了一項引人注目的研究,發布了一種名為ChatAnything的全新AI框架。該框架專注于通過在線方式生成基于大型語言模型(LLM)的角色的擬人化形象,從而創造具有定制視覺外觀、個性和語調的人物。
簡答的說,ChatAnything是一個創新的產品,利用語言模型技術為LLM角色創建具有視覺外觀、個性和語調的擬人化角色。通過混合語音和外觀生成概念,用戶只需幾個文本輸入即可定制角色。該產品采用面部標志控制和評估數據集,通過像素級引導實現更高的人類面部特征生成率。ChatAnything支持文本和圖像輸入,為用戶提供創造獨特虛擬角色的自由度。
研究團隊充分利用了LLMs的上下文學習能力,通過精心設計的系統提示生成具有個性的擬人化形象。他們提出了兩個創新概念:混合聲音(MoV)和擴散混合(MoD),以實現聲音和外觀的多樣生成。MoV使用文本到語音(TTS)算法生成預定義音調,根據用戶提供的文本描述選擇最匹配的音調。而MoD則結合了文本到圖像生成技術和說話頭算法,簡化了生成交互式對象的過程。
然而,研究人員在使用當前模型生成的擬人化對象時遇到了一個挑戰,即這些對象通常無法被預先訓練的面部關鍵點檢測器檢測到,導致面部運動生成失敗。為了解決這個問題,他們在圖像生成過程中引入了像素級的引導,注入人臉關鍵點,顯著提高了面部關鍵點檢測率,從而實現了基于生成的語音內容的自動面部動畫。
研究人員在論文中詳細討論了大型語言模型(LLMs)的最新進展以及它們在上下文學習方面的能力,將它們置于學術討論的前沿。他們強調了需要一個能夠生成具有定制個性、語音和視覺外觀的LLM增強人物的框架的重要性。對于個性生成,他們利用LLMs的上下文學習能力,使用文本到語音(TTS)API創建了一個聲音模塊池,MoV模塊根據用戶文本輸入選擇音調。
研究人員進一步介紹了ChatAnything框架的四個主要模塊,包括LLM控制模塊、肖像初始化器、文本到語音模塊混合和動作生成模塊。他們通過引入擴散模型、語音變換器和結構控制,創建了一個模塊化和靈活的系統。為了驗證引導擴散的有效性,研究人員創建了一個包含不同類別提示的驗證數據集,并使用預訓練的面部關鍵點檢測器評估了面部關鍵點檢測率,展示了他們提出的方法的影響。
ChatAnything框架為生成具有擬人特征的LLM增強人物提供了全面的解決方案。研究人員在解決面部關鍵點檢測方面提出了創新性的解決方案,并在驗證數據集中取得了令人鼓舞的結果。這項工作為將生成模型與說話頭算法相結合以及改善數據分布的對齊提供了未來研究的可能性。


產品與服務
聯系站長
關于我們